onnx模型部署java（onnx模型部署到单片机）

Java基础来源：网络编辑：小编更新时间：2026-02-18 21:36:07 浏览量：60

一、langchain-chatchat0.3.1的安装

二、安装模型部署框架（xinference）

三、运行模型部署框架（xinference）、下载启动所需模型

1、运行xinference

2、下载、启动模型

第一种方法：直接在xinference上下载，并启动模型：

第二种方法：手动下载模型，在xinference上启动

下载embedding模型（bge-large-zh-v1.5）：

下载LLM（Qwen2.5-7B-Instruct-GPTQ-Int8）：

四、运行langchain-chatchat0.3.1

1、创建文件夹(eg:文件夹名为langchian-chatchat）

用于放置langchain-chatchat0.3.1项目，并进入到文件夹

2、创建并激活虚拟环境（eg:环境名为langchain）

3、下载项目

4、安装

https://github.com/chatchat-space/Langchain-Chatchat?tab=readme-ov-file：从 0.3.0 版本起，Langchain-Chatchat 不再根据用户输入的本地模型路径直接进行模型加载，涉及到的模型种类包括 LLM、Embedding、Reranker 及后续会提供支持的多模态模型等，均改为支持市面常见的各大模型推理框架接入，如 Xinference、Ollama、LocalAI、FastChat、One API 等。因此，请确认在启动 Langchain-Chatchat 项目前，首先进行模型推理框架的运行，并加载所需使用的模型。

这里用的是Xinference

1、创建并激活一个新的虚拟环境

为避免依赖冲突，要将 Langchain-Chatchat 和模型部署框架 Xinference 放在不同的 Python 虚拟环境中

2、安装

如果需要使用 Xinference 进行模型推理，可以根据不同的模型指定不同的引擎。这里我安装的是 [Transformers] 引擎（也就是用下面那行代码），这是 Pytorch 模型默认使用的引擎，该引擎支持几乎有所的最新模型

其中指定了 Xinference 的工作目录或模型存储位置

：指定了模型的来源

：是启动 Xinference 本地推理服务的命令

启动成功后，可以通过 http://<服务器ip>:9997来访问 xinference 的 WebGUI 界面

http://<服务器ip>:9997 来访问 xinference 的 WebGUI 界面:

需要下载的模型有两个，一个是LLM（我使用的是Qwen），一个是embedding模型（我使用的是bge-large-zh-v1.5）

第一种方法：直接在xinference上下载，并启动模型：

终端可以看到下载进度：

因为我在下载的时候出现cuda版本过低等一些问题，一直无法直接用xinference下载并启动模型。因此我采用第二种方法：

第二种方法：手动下载模型，在xinference上启动

下载embedding模型（bge-large-zh-v1.5）：

①首先下载所需的模型，并记住它的位置。如下载bge-large-zh-v1.5，我的下载位置是/home/……/bge-large-zh-v1.5

②然后在xinference上注册：

③在xinference上启动：

启动成功的样子：

下载LLM（Qwen2.5-7B-Instruct-GPTQ-Int8）：

在huggingface上手动下载Qwen2.5-7B-Instruct-GPTQ-Int8

链接：https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GPTQ-Int8/tree/main

下载好上传到服务器

打开xinference的UI界面：

启动：

启动成功的样子：

初始化：

修改配置文件：

打开model_settings.yaml文件按下图进行修改，修改后保存:

初始化知识库：

等一会，直到出现以下日志即为成功：

启动项目：

成功：

到此这篇onnx模型部署java（onnx模型部署到单片机）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇： java调用dll动态库 java接收char＊乱码（java调用dll实例）

下一篇：单向链表排序（单向链表排序java）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/jjc/35168.html

第一种方法：直接在xinference上下载，并启动模型：

第二种方法：手动下载模型，在xinference上启动

下载embedding模型（bge-large-zh-v1.5​​​​​​​）：

下载LLM（Qwen2.5-7B-Instruct-GPTQ-Int8）：

相关文章：

下载embedding模型（bge-large-zh-v1.5）：