首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
clvin
›
全部回复第 1 页 / 共 1 页
回复总数
4
96 天前
回复了
ddvswgg
创建的主题
›
程序员
›
关于在本地部署开源模型的一些问题请教
1. 40G 可以跑 7B 的模型。
2. ollama 是比较方便的部署方式,如果想并发性能更好一些,可以使用 vllm 来推理。
3. 熟练的话就很快,不熟的话照着文档来部署。
4. ollama 和 vllm 都支持兼容 openai API 接口,就是 http 调用。
5. 上 RAG 可以使用集成好的框架,比如 dify 之类的。
6. 上 RAG 的话,还需要 EMBEDDING 和 RERANK 的模型,具体可以看 dify 的文档。
145 天前
回复了
TriiHsia
创建的主题
›
分享创造
›
🌼 BalmyTime 一款跨平台的休息提醒 & 屏幕时间工具,欢迎体验
求一个码,谢谢~ aGNsdmluQGdtYWlsLmNvbQ==
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2690 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms ·
UTC 00:17
·
PVG 08:17
·
LAX 16:17
·
JFK 19:17
Developed with
CodeLauncher
♥ Do have faith in what you're doing.