DeepSeek+dify 本地知识库：真的太香了

作者：yxkong

次浏览

次

2025-3-5

编辑推荐:

本文主要介绍了DeepSeek+dify 本地知识库相关内容，希望对你的学习有帮助。
本文来自于微信公众号5ycode，由火龙果软件Linda编辑，推荐。

知识科普

关于模型

大语言模型（LLM）是通过深度学习技术，基于海量历史文本数据训练出的概率生成系统。

能力边界

知识时效性：模型知识截止于训练数据时间点

推理局限性：本质是概率预测而非逻辑运算，复杂数学推理易出错（deepseek的架构有所不同）

专业领域盲区：缺乏垂直领域知识

幻觉现象：可能生成看似合理但实际错误的内容

更新机制

全量重训练：需重新处理TB级数据，消耗数千GPU小时（这个我们直接排除）

微调(Fine-tuning)：用领域数据调整模型参数，成本仍较高（这个也需要一定的成本）

上下文学习：通过提示词临时注入知识，但受限于上下文长度（这个我们通过外挂知识库实现）

综上，我们能做的更新机制就是给它通过提示词上下文临时注入知识。

关于知识库

我们之前说的知识库都是广义知识库。

在关于模型哪里我们说了，我们可以通过提示词临时注入知识，给大模型，但是大模型的上下文是有长度限制的，我们通过各种技术把最合适的内容挑选出来，然后给大模型。

关于嵌入模型

嵌入模型是一种将高维离散数据（文本、图像等）转换为低维连续向量的技术，这种转换让机器能更好地理解和处理复杂数据。

举一个例子来理解向量，你正在玩一个叫做"猜词"的游戏。你的目标是描述一个词，而你的朋友们要根据你的描述猜出这个词。你不能直接说出这个词，而是要用其他相关的词来描述它。例如，你可以用"热"、"喝"、"早餐"来描述"咖啡"。嵌入模型就是将一个词转化为其他相关词的专用模型。

"热"、"喝"、"早餐" 可以理解为向量。不过向量值是在向量空间的特定位置，在这个空间里语义相近的词会自动聚集起来。所以就有了相似度的概念，相似度越高，越匹配。

我们使用的bge-m3 只能向量化出1024维。

 ollama show bge-m3:latest
    architecture        bert
    parameters          566.70M
    context length      8192
    embedding length    1024
    quantization        F16

为什么没有匹配到知识

知识预处理

1，上传文档

2，将文档分割成适当大小的文本块

3，使用embedding模型将每个文本段转换为向量

4，将向量和原文存储到向量数据库中

查询处理阶段

1，将用户输入问题转换为向量

2，在向量库中检索相似内容

3，将检索到的相关内容作为上下文提供给LLM

我们用的本地应用工具，一般都是粗粒度分段，向量化的质量没法保证。

本地知识库安全吗？

根据上一步，我们可以知道本地知识库+本地大模型是安全的。

本地知识库+远端api的大模型，会把片段上传。

dify安装

前提条件

假设你已经安装了docker，docker安装不同的架构安装方式不一样，这里就不做教程了。已经登录了docker

安装完docker以后，记得调整docker镜像的存储地址。

已经安装了docker，并且登录了

已经安装了git win上docker安装地址： https://docs.docker.com/desktop/setup/install/windows-install/#wsl-2-backend

安装

下载dify

通过官网下载，如果你没有魔法，可以从网盘里那对应的

# 进入要下载的目录，打卡命令提示行工具，cmd或者powershell
cd E:\ai\code
#下载
git clone https://github.com/langgenius/dify.git
# 国内镜像站
https://gitee.com/dify_ai/dify

如果没有git环境，可以直接从网盘下载压缩包。

我们下载以后，只关注docker文件夹和README_CN.md即可。

清理（非必须）

由于我的dify安装的比较早，是0.7.x版本，为了给大家演示，就把原来的铲了。如果你以前安装过dify，使用以下命令清理历史镜像

cd docker 进入目录
# 清理历史镜像
docker-compose down -v --rmi all

创建配置

我们进入dify目录下的docker目录中,比如我的 E:\ai\code\dify\docker

# 以示例创建一个.env的文件，执行下面命令
cp .\.env.example .env

修改dify绑定ip

API 服务绑定地址，默认：0.0.0.0，即所有地址均可访问。刚开始我以为是控制dify对外暴露的服务的，改成了127.0.0.1,然后出现以下的502，折腾了我快3个小时。

修改端口（非必须）

默认占用的是80和443端口，如果你本机已经部署了其他的应用，占了该端口，修改.env文件中的下面两个变量

EXPOSE_NGINX_PORT=8001
EXPOSE_NGINX_SSL_PORT=8443

上传文件大小

默认上传图片大小是10MB,上传视频大小是100MB,文件默认是50MB,如果有需要修改下面对应的参数

# Upload image file size limit, default 10M.
UPLOAD_IMAGE_FILE_SIZE_LIMIT=10
# Upload video file size limit, default 100M.
UPLOAD_VIDEO_FILE_SIZE_LIMIT=100
# Upload audio file size limit, default 50M.
UPLOAD_AUDIO_FILE_SIZE_LIMIT=50

启动dify