V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ccloving
V2EX  ›  问与答

打听一下,企业搞知识库一般都用什么做知识库?

  •  
  •   ccloving · 2 天前 · 1260 次点击
    发现很多用 anythingLLM 的,此外还有 dify,openwebUI ,除了这几个,还有哪些比较普遍?
    13 条回复    2025-03-09 22:56:03 +08:00
    billbob
        1
    billbob  
       2 天前
    AI 玩知识库,AI 你训练好了吗?

    这些事 AI 应用层,重要的事要拿产品文档,信息训练 AI,前端对接用什么无所谓.

    你说的这些玩意是 AI 多端集成,它不是知识库
    ccloving
        2
    ccloving  
    OP
       2 天前
    @billbob 所以现在都是先预训练吗?前端什么用的多呢?还都是自己开发?
    letitbesqzr
        3
    letitbesqzr  
       2 天前
    @billbob #1

    现在一般都是玩知识库了吧.. 比如 dify 就可以给他塞很多公司内部的资料 文档 让他根据这些知识来回答..
    zfjdif
        4
    zfjdif  
       2 天前
    @billbob RAG 一样能搞,只是效果不好说,为啥非得训练或者微调才能叫知识库呢?
    cobbage
        5
    cobbage  
       2 天前 via Android
    dify 里面是要套模型的。知识库我得理解就是搜索,把搜索的门槛降了,还有总结归纳的能力
    ccloving
        6
    ccloving  
    OP
       2 天前
    @cobbage 同感,感觉就是个内部资料的搜索引擎。
    gvdlmjwje
        7
    gvdlmjwje  
       2 天前
    我们公司用的是 dify 具体我不是清楚 研发那边弄的 我知道是因为研发找我建了台 linux 的 vm 说要装 dify

    实际效果是,把公司的产品喂给 AI 然后员工通过 OA 上绑的 dify 快捷方式进去 然后可以针对公司产品进行提问这样子的
    op351
        8
    op351  
       2 天前
    其实我很好奇
    相比于 RAG ( Retrieval Augmented Generation )模式的
    1.对文档使用 LLM 对数据进行解析,切片,清洗后放入向量数据库
    2.检索读取用户问题时,通过使用 LLM 对用户输入进行分析,调用 api 查询向量数据库
    3.检索结果输出答案时,通过 LLM 的 prompt 工程对向量数据库检索结果进行再整理

    微调 Fine-Tuning
    对已有模型使用自己的数据集对模型进行再训练,从而输出新的模型

    这俩成本会差多少,假设 RAG 需要 60 个人日的成本,微调呢,600 ,6000 ?
    op351
        9
    op351  
       2 天前
    另外的疑问
    Dify 之类的知识库实现也是 RAG 吧?
    难道是微调 Fine-Tuning ?
    terranboy
        10
    terranboy  
       2 天前
    ragflow
    datocp
        11
    datocp  
       1 天前
    面对企业各种各样的文档格式,谁去格式化这些文档,这才是大工程。
    之前使用了 alfresco 所谓的企业文档,可以将支持的格式转换成类似百度搜索那种界面 web 化的 pdf ,可以关键字查询文档内的内容只要它支持转换。

    至于 AI ,太高端了。说起来 DeepSeek 都没给我推来带图片的内容。
    ryanwong97
        12
    ryanwong97  
       1 天前
    正在搞这块,可以简单回答下。

    首先 anythingLLM 这个是娱乐级的,个人玩玩可以,用在企业级不合适。

    目前企业搞知识库,基本上就 2 个途径,第一个是自己从零开始撸,这个也没有想象得难,比较 langchain 和 llamaindex 把玩法已经早就放出来了。当然目前的显著趋势是去 langchain 化。第二个就是基于目前现有的开源框架,比如 dify 、ragflow 、bisheng 等。这种的优势是不用从零开始,上手会很快,如果要求不高甚至是开箱即用;弊端是如果需求比较个性化,那么二开是难免的。也就很考验开发团队的工程能力了。

    当然,这些都是工具,企业搞知识库,很重要的一点是你的私有数据到底已经整理得怎么样了。很多传统企业或者传统业务部门,数字化都还没完全实现,信息传递还在重度依赖纸张和萝卜章,想越过数字化直接拥抱 AI 化,基本上是痴人说梦。凑个热闹写个通稿可以,但实际效果只能说冷热自知。
    ccloving
        13
    ccloving  
    OP
       7 小时 4 分钟前
    @ryanwong97 感谢解答,你的最专业,其实我想知道目前国内最普遍的情况是不是就是二开开源框架?完全自己开发但是不是多?
    非常同意您说的,数据整理才是更大的工程。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   856 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 22:00 · PVG 06:00 · LAX 15:00 · JFK 18:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.