V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ccloving
V2EX  ›  问与答

打听一下,企业搞知识库一般都用什么做知识库?

  •  
  •   ccloving · 34 天前 · 1963 次点击
    这是一个创建于 34 天前的主题,其中的信息可能已经有所发展或是发生改变。
    发现很多用 anythingLLM 的,此外还有 dify,openwebUI ,除了这几个,还有哪些比较普遍?
    14 条回复    2025-03-11 17:00:08 +08:00
    billbob
        1
    billbob  
       34 天前
    AI 玩知识库,AI 你训练好了吗?

    这些事 AI 应用层,重要的事要拿产品文档,信息训练 AI,前端对接用什么无所谓.

    你说的这些玩意是 AI 多端集成,它不是知识库
    ccloving
        2
    ccloving  
    OP
       34 天前
    @billbob 所以现在都是先预训练吗?前端什么用的多呢?还都是自己开发?
    letitbesqzr
        3
    letitbesqzr  
       34 天前
    @billbob #1

    现在一般都是玩知识库了吧.. 比如 dify 就可以给他塞很多公司内部的资料 文档 让他根据这些知识来回答..
    zfjdif
        4
    zfjdif  
       34 天前
    @billbob RAG 一样能搞,只是效果不好说,为啥非得训练或者微调才能叫知识库呢?
    cobbage
        5
    cobbage  
       34 天前 via Android
    dify 里面是要套模型的。知识库我得理解就是搜索,把搜索的门槛降了,还有总结归纳的能力
    ccloving
        6
    ccloving  
    OP
       34 天前
    @cobbage 同感,感觉就是个内部资料的搜索引擎。
    gvdlmjwje
        7
    gvdlmjwje  
       34 天前
    我们公司用的是 dify 具体我不是清楚 研发那边弄的 我知道是因为研发找我建了台 linux 的 vm 说要装 dify

    实际效果是,把公司的产品喂给 AI 然后员工通过 OA 上绑的 dify 快捷方式进去 然后可以针对公司产品进行提问这样子的
    op351
        8
    op351  
       34 天前
    其实我很好奇
    相比于 RAG ( Retrieval Augmented Generation )模式的
    1.对文档使用 LLM 对数据进行解析,切片,清洗后放入向量数据库
    2.检索读取用户问题时,通过使用 LLM 对用户输入进行分析,调用 api 查询向量数据库
    3.检索结果输出答案时,通过 LLM 的 prompt 工程对向量数据库检索结果进行再整理

    微调 Fine-Tuning
    对已有模型使用自己的数据集对模型进行再训练,从而输出新的模型

    这俩成本会差多少,假设 RAG 需要 60 个人日的成本,微调呢,600 ,6000 ?
    op351
        9
    op351  
       34 天前
    另外的疑问
    Dify 之类的知识库实现也是 RAG 吧?
    难道是微调 Fine-Tuning ?
    terranboy
        10
    terranboy  
       34 天前
    ragflow
    datocp
        11
    datocp  
       33 天前
    面对企业各种各样的文档格式,谁去格式化这些文档,这才是大工程。
    之前使用了 alfresco 所谓的企业文档,可以将支持的格式转换成类似百度搜索那种界面 web 化的 pdf ,可以关键字查询文档内的内容只要它支持转换。

    至于 AI ,太高端了。说起来 DeepSeek 都没给我推来带图片的内容。
    ryanwong97
        12
    ryanwong97  
       33 天前
    正在搞这块,可以简单回答下。

    首先 anythingLLM 这个是娱乐级的,个人玩玩可以,用在企业级不合适。

    目前企业搞知识库,基本上就 2 个途径,第一个是自己从零开始撸,这个也没有想象得难,比较 langchain 和 llamaindex 把玩法已经早就放出来了。当然目前的显著趋势是去 langchain 化。第二个就是基于目前现有的开源框架,比如 dify 、ragflow 、bisheng 等。这种的优势是不用从零开始,上手会很快,如果要求不高甚至是开箱即用;弊端是如果需求比较个性化,那么二开是难免的。也就很考验开发团队的工程能力了。

    当然,这些都是工具,企业搞知识库,很重要的一点是你的私有数据到底已经整理得怎么样了。很多传统企业或者传统业务部门,数字化都还没完全实现,信息传递还在重度依赖纸张和萝卜章,想越过数字化直接拥抱 AI 化,基本上是痴人说梦。凑个热闹写个通稿可以,但实际效果只能说冷热自知。
    ccloving
        13
    ccloving  
    OP
       32 天前
    @ryanwong97 感谢解答,你的最专业,其实我想知道目前国内最普遍的情况是不是就是二开开源框架?完全自己开发但是不是多?
    非常同意您说的,数据整理才是更大的工程。
    ryanwong97
        14
    ryanwong97  
       30 天前
    @ccloving 目前我了解的情况,二开开源框架的确实比较多,一般徒手从零开始搭的,要么是技术背景特别雄厚的超大规模团队,要么是规模特别小要求也不是很高的小型团队。我看国内很多国企和中大型企业都在二开开源框架。国外的话自研的比例很大,有个在花旗银行的朋友,去年他们的 RAG 还是在用 langchain 从零搭建。作为对比,我看到很多国内地区性银行(头部大行不谈)都在用开源框架。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1335 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 17:21 · PVG 01:21 · LAX 10:21 · JFK 13:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.