V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
GrayXu
V2EX  ›  问与答

求推荐一个轻量 RAG LLM chat 的部署方案

  •  1
     
  •   GrayXu · 142 天前 · 2026 次点击
    这是一个创建于 142 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求:

    1. 构建英文 pdf 知识库,一次对话讨论可以涉及多个文件
    2. 向量数据库最好本地化
    3. 不需要本地部署模型,所有 embed, rerank, chat models 都用 api
    4. 不需要用户管理等冗余功能

    看好多方案,ragflow fastgpt langchain-chatchat ,不知道实际用起来如何?或者有其他推荐的方案?

    ChatGPT-Next-Web-langchain 感觉在上游的简单前端框架下加 rag 的逻辑,还是有点勉强了。

    第 1 条附言  ·  142 天前
    langchain-chatchat 0.3.1 ,尝试部署了下,这个确实挺轻量,但呈现出来的是一个相当 prototype 的产品,不知道为什么 star 这么多,最新的 docker 0.3.0 基本是不可用的。
    第 2 条附言  ·  141 天前
    好多人提到 dify ,如果有团队使用需求,可以尝试下 dify ragflow danswer 。这几个看了下 docker-compose ,感觉都比较重了。
    第 3 条附言  ·  74 天前

    update: 现在ragflow等已经支持graphrag了(dify不支持)。更好的rag策略还包括,anthropic的contextual-retrieval 等等。
    对比使用来看,传统直接做分割的确实存在很多问题痛点。

    16 条回复    2024-07-31 13:16:39 +08:00
    mumbler
        1
    mumbler  
       142 天前
    个人用吗,可以试试 flashai.com.cn 的云端版,开箱即用,支持 mac 和 win ,本地知识库+本地向量化,另外还有带本地大模型版本
    GrayXu
        2
    GrayXu  
    OP
       142 天前
    @mumbler #1 谢谢,这个方案看上去限制蛮多的,付费了也只有 8b 的模型。我们已经有 embedding, rerank, chat 的完整 api 服务了。
    lixen9
        3
    lixen9  
       142 天前   ❤️ 1
    fastgpt 试用过感觉还行,蛮符合你的需求来着,开源版本即可
    GrayXu
        4
    GrayXu  
    OP
       142 天前
    @lixen9 #3 谢谢 试了一圈 fastgpt 确实是最好上手的。看了下小规模使用下,开源版本没啥问题,就是配置系统比较麻烦 XD
    regent
        5
    regent  
       142 天前
    @mumbler 这款产品您试过吗 对比 AnythingLLM 效果如何
    echoless
        6
    echoless  
       142 天前
    embed, rerank 这些 api 你是用的开源的么?

    我倒是想整合 RAG 这些到 https://github.com/swuecho/chat (只有 chat 功能)
    然后可以(optional) 配置 embed, rerank API.
    GrayXu
        7
    GrayXu  
    OP
       142 天前
    @echoless #6 有的是开源的,有的不是
    GrayXu
        8
    GrayXu  
    OP
       142 天前   ❤️ 1
    @echoless #6 你可以关注下 siliconflow ,最近上了 embedding ,后面会上 rerank 。
    pieerepeng
        9
    pieerepeng  
       142 天前   ❤️ 1
    补充个 dify.ai

    本地 llm 选,ollama 或者 nitro

    我搭建过,就是处理的英文 pdf 。
    SoloKing
        10
    SoloKing  
       142 天前 via Android   ❤️ 1
    dify+1
    wm5d8b
        11
    wm5d8b  
       141 天前 via Android
    模型不在本地部署,全用 api ,钱包它同意嘛
    本地用 ollama 部署挺简单的,就是大概 12G 显存得 24 小时处于 standby 状态
    GrayXu
        12
    GrayXu  
    OP
       141 天前
    @wm5d8b #11 12G 算上量化只能部署个 9B 的模型吧。只能说离“能用”还有很大距离
    zqqian
        13
    zqqian  
       137 天前
    所以楼主最后调研的结果是什么,能说一下吗?
    GrayXu
        14
    GrayXu  
    OP
       137 天前
    @zqqian #13
    FastGPT ,感觉是满足功能需求的最轻的选择了。问题的话,还是存在一些小 bug ,然后看上去他们社区版维护的比较随意。
    zqqian
        15
    zqqian  
       136 天前
    @GrayXu #14 我在测试 FastGPT 后觉得他们的 PDF 分割的效果不太好,不知道有没有效果更好一些的
    GrayXu
        16
    GrayXu  
    OP
       125 天前
    @zqqian #15 分割?感觉大家分割方案现在都差不多吧。还是等等 GraphRAG 吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1270 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 18:06 · PVG 02:06 · LAX 10:06 · JFK 13:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.