打听一下，企业搞知识库一般都用什么做知识库？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 55 天前的主题，其中的信息可能已经有所发展或是发生改变。

发现很多用 anythingLLM 的，此外还有 dify,openwebUI ，除了这几个，还有哪些比较普遍？

知识库

AnythingLLM

dify

14 条回复 • 2025-03-11 17:00:08 +08:00

billbob

55 天前

AI 玩知识库,AI 你训练好了吗?

这些事 AI 应用层,重要的事要拿产品文档,信息训练 AI,前端对接用什么无所谓.

你说的这些玩意是 AI 多端集成,它不是知识库

ccloving

55 天前

@billbob 所以现在都是先预训练吗？前端什么用的多呢？还都是自己开发？

letitbesqzr

55 天前

@billbob #1

现在一般都是玩知识库了吧.. 比如 dify 就可以给他塞很多公司内部的资料文档让他根据这些知识来回答..

zfjdif

55 天前

@billbob RAG 一样能搞，只是效果不好说，为啥非得训练或者微调才能叫知识库呢？

cobbage

55 天前 via Android

dify 里面是要套模型的。知识库我得理解就是搜索，把搜索的门槛降了，还有总结归纳的能力

ccloving

55 天前

@cobbage 同感，感觉就是个内部资料的搜索引擎。

gvdlmjwje

55 天前

我们公司用的是 dify 具体我不是清楚研发那边弄的我知道是因为研发找我建了台 linux 的 vm 说要装 dify

实际效果是，把公司的产品喂给 AI 然后员工通过 OA 上绑的 dify 快捷方式进去然后可以针对公司产品进行提问这样子的

op351

55 天前

其实我很好奇
相比于 RAG （ Retrieval Augmented Generation ）模式的
1.对文档使用 LLM 对数据进行解析，切片，清洗后放入向量数据库
2.检索读取用户问题时，通过使用 LLM 对用户输入进行分析，调用 api 查询向量数据库
3.检索结果输出答案时，通过 LLM 的 prompt 工程对向量数据库检索结果进行再整理

微调 Fine-Tuning
对已有模型使用自己的数据集对模型进行再训练，从而输出新的模型

这俩成本会差多少，假设 RAG 需要 60 个人日的成本，微调呢，600 ，6000 ？

op351

55 天前

另外的疑问
Dify 之类的知识库实现也是 RAG 吧？
难道是微调 Fine-Tuning ？

terranboy

55 天前

ragflow

datocp

54 天前

面对企业各种各样的文档格式，谁去格式化这些文档,这才是大工程。
之前使用了 alfresco 所谓的企业文档，可以将支持的格式转换成类似百度搜索那种界面 web 化的 pdf ，可以关键字查询文档内的内容只要它支持转换。

至于 AI ，太高端了。说起来 DeepSeek 都没给我推来带图片的内容。

ryanwong97

54 天前

正在搞这块，可以简单回答下。

首先 anythingLLM 这个是娱乐级的，个人玩玩可以，用在企业级不合适。

目前企业搞知识库，基本上就 2 个途径，第一个是自己从零开始撸，这个也没有想象得难，比较 langchain 和 llamaindex 把玩法已经早就放出来了。当然目前的显著趋势是去 langchain 化。第二个就是基于目前现有的开源框架，比如 dify 、ragflow 、bisheng 等。这种的优势是不用从零开始，上手会很快，如果要求不高甚至是开箱即用；弊端是如果需求比较个性化，那么二开是难免的。也就很考验开发团队的工程能力了。

当然，这些都是工具，企业搞知识库，很重要的一点是你的私有数据到底已经整理得怎么样了。很多传统企业或者传统业务部门，数字化都还没完全实现，信息传递还在重度依赖纸张和萝卜章，想越过数字化直接拥抱 AI 化，基本上是痴人说梦。凑个热闹写个通稿可以，但实际效果只能说冷热自知。

ccloving

52 天前

@ryanwong97 感谢解答，你的最专业，其实我想知道目前国内最普遍的情况是不是就是二开开源框架？完全自己开发但是不是多？
非常同意您说的，数据整理才是更大的工程。

ryanwong97

50 天前

@ccloving 目前我了解的情况，二开开源框架的确实比较多，一般徒手从零开始搭的，要么是技术背景特别雄厚的超大规模团队，要么是规模特别小要求也不是很高的小型团队。我看国内很多国企和中大型企业都在二开开源框架。国外的话自研的比例很大，有个在花旗银行的朋友，去年他们的 RAG 还是在用 langchain 从零搭建。作为对比，我看到很多国内地区性银行（头部大行不谈）都在用开源框架。