clvin 最近的时间轴更新
clvin

clvin

V2EX 第 517591 号会员,加入于 2020-11-16 09:24:06 +08:00
clvin 最近回复了
96 天前
回复了 ddvswgg 创建的主题 程序员 关于在本地部署开源模型的一些问题请教
1. 40G 可以跑 7B 的模型。
2. ollama 是比较方便的部署方式,如果想并发性能更好一些,可以使用 vllm 来推理。
3. 熟练的话就很快,不熟的话照着文档来部署。
4. ollama 和 vllm 都支持兼容 openai API 接口,就是 http 调用。
5. 上 RAG 可以使用集成好的框架,比如 dify 之类的。
6. 上 RAG 的话,还需要 EMBEDDING 和 RERANK 的模型,具体可以看 dify 的文档。
求一个码,谢谢~ aGNsdmluQGdtYWlsLmNvbQ==
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   961 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 22:34 · PVG 06:34 · LAX 14:34 · JFK 17:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.