目录
一、langchain-chatchat0.3.1的安装
二、安装模型部署框架(xinference)
三、运行模型部署框架(xinference)、下载启动所需模型
1、运行xinference
2、下载、启动模型
第一种方法:直接在xinference上下载,并启动模型:
第二种方法:手动下载模型,在xinference上启动
下载embedding模型(bge-large-zh-v1.5):
下载LLM(Qwen2.5-7B-Instruct-GPTQ-Int8):
四、运行langchain-chatchat0.3.1
1、创建文件夹(eg:文件夹名为langchian-chatchat)
用于放置langchain-chatchat0.3.1项目,并进入到文件夹
2、创建并激活虚拟环境(eg:环境名为langchain)
3、下载项目

4、安装
https://github.com/chatchat-space/Langchain-Chatchat?tab=readme-ov-file:从 0.3.0 版本起,Langchain-Chatchat 不再根据用户输入的本地模型路径直接进行模型加载,涉及到的模型种类包括 LLM、Embedding、Reranker 及后续会提供支持的多模态模型等,均改为支持市面常见的各大模型推理框架接入,如 Xinference、Ollama、LocalAI、FastChat、One API 等。因此,请确认在启动 Langchain-Chatchat 项目前,首先进行模型推理框架的运行,并加载所需使用的模型。
这里用的是Xinference
1、创建并激活一个新的虚拟环境
为避免依赖冲突,要将 Langchain-Chatchat 和模型部署框架 Xinference 放在不同的 Python 虚拟环境中
2、安装
如果需要使用 Xinference 进行模型推理,可以根据不同的模型指定不同的引擎。这里我安装的是 [Transformers] 引擎(也就是用下面那行代码),这是 Pytorch 模型默认使用的引擎 ,该引擎支持几乎有所的最新模型
其中指定了 Xinference 的工作目录或模型存储位置
:指定了模型的来源
:是启动 Xinference 本地推理服务的命令
启动成功后,可以通过 http://<服务器ip>:9997来访问 xinference 的 WebGUI 界面
http://<服务器ip>:9997 来访问 xinference 的 WebGUI 界面:
需要下载的模型有两个,一个是LLM(我使用的是Qwen),一个是embedding模型(我使用的是bge-large-zh-v1.5)
第一种方法:直接在xinference上下载,并启动模型:

终端可以看到下载进度:
因为我在下载的时候出现cuda版本过低等一些问题,一直无法直接用xinference下载并启动模型。因此我采用第二种方法:
第二种方法:手动下载模型,在xinference上启动
下载embedding模型(bge-large-zh-v1.5):
①首先下载所需的模型,并记住它的位置。如下载bge-large-zh-v1.5,我的下载位置是/home/……/bge-large-zh-v1.5
②然后在xinference上注册:

③在xinference上启动:


启动成功的样子:

下载LLM(Qwen2.5-7B-Instruct-GPTQ-Int8):
在huggingface上手动下载Qwen2.5-7B-Instruct-GPTQ-Int8
链接:https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GPTQ-Int8/tree/main

下载好上传到服务器
打开xinference的UI界面:
注册:


启动:

启动成功的样子:

初始化:

修改配置文件:
打开model_settings.yaml文件按下图进行修改,修改后保存:

初始化知识库:
等一会,直到出现以下日志即为成功:

启动项目:
成功:

版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/jjc/35168.html