友友们，关于根据知识库回答或者检索的有什么好的开源项目吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 264 天前的主题，其中的信息可能已经有所发展或是发生改变。

希望用于给用户回答问题，检索出信息，类似回答下答案，给他下来源哪儿篇指导手册之类的，要私有化，不依赖外部 api 。

目前已知的基于 Embedding+RAG+LLM 的类似工作流的系统有 Dify Langchain fastgpt 之类的，但是这些下游 LLM 服务消耗的资源太大了，看起来简单的 LLM 模型都得一个 16G 显卡，这个成本有点高

现在有这些问题

有什么好用的 LLM 模型可以开源商用的，成本低的，或者显卡要求低些的模型吗
有没有开源的项目设备要求低点，比如只要 CPU 就行的，类似那种基于简单词向量，计算编辑距离那种的，融合了很多策略那种，成套的开源服务吗，类似百度古老的 AnyQ 一样的
我的检索关键词有问题吗，有什么好的检索关键词推荐吗

11 条回复 • 2024-07-22 09:02:06 +08:00

fredweili

264 天前

llama3 8b 资源要求不高，m1 pro 16g 就能跑了，效果也还行

ladeo

264 天前

@fredweili
m1 pro 16g 跑的是量化的还是 bf16 ？
推理速度怎么样？
我自己的 4070 12G 感觉不量化的话速度还是慢

fredweili

263 天前

@ladeo 量化参数不清楚，用 ollama 安装的

MoYi123

263 天前

B 站前几天开源的这个 https://github.com/bilibili/Index-1.9B
配置要求应该挺低的.

shengkai

263 天前

shengkai

263 天前

对不起粗心没注意要私有化，上面回答的请忽略…

jianchang512

263 天前

MaxKB 应该可以的。正在使用

开源、私有部署

https://github.com/1Panel-dev/MaxKB

jianchang512

263 天前

api 可使用本地部署大模型

RandomJoke

263 天前

目前这些工作流系统都大差不差，可选择的也挺多的，LZ 想要的是低成本的 LLM ，这个目前来说就没有，meta 开源的 llama3 已经算是消费级显卡上能玩了，本质上 LLM 目前来说就是得靠 GPU 。现阶段比较好的方案就是如果轻量使用，则调用大厂的 API ，不然想要低成本玩转还是很困难的

wheat0r

263 天前

等浏览器内置模型普及了，在客户端跑

MrDarnell

233 天前

@jianchang512 你这个不是还要接第三方么？