V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Legman
V2EX  ›  Local LLM

请教模型部署和管理的问题

  •  
  •   Legman · 3 天前 via Android · 403 次点击

    搞了 4 张 4090d 私有化部署一套环境给公司一些团队用,目前遇到几个问题请教一下(当然不排除个人能力问题,没有做部署/参数上的优化)

    1. 模型管理问题,模型涉及语言、嵌入、重排序等类型,想统一管理,是否有比较好的方案?现在用的是 xinference.

    2. 从 ollama 切换到 xinference 原因是 ollama 不支持 rerank 模型,但是使用中发现,同一个 llm 模型,ollama 上的模型比 xinference 响应更快,是因为参数优化问题?

    4 条回复    2025-03-29 16:51:31 +08:00
    YsHaNg
        1
    YsHaNg  
       2 天前
    用 open webui 接入 ollama 可以使用 rerank 模型
    wyntalgeer
        2
    wyntalgeer  
       2 天前
    vllm
    coefuqin
        3
    coefuqin  
       2 天前
    定制化的需求,没有完全符合个性化需求的框架轮子,只有自己 diy 。
    Legman
        4
    Legman  
    OP
       1 天前 via Android
    @YsHaNg 这个我试试
    @wyntalgeer xinferemce 也支持使用 vllm
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5460 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 06:38 · PVG 14:38 · LAX 23:38 · JFK 02:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.