V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
craftx
V2EX  ›  OpenAI

目前 性能/资源消耗 最高的 70 以下中小开源模型是哪几个?

  •  
  •   craftx · 65 天前 · 973 次点击
    这是一个创建于 65 天前的主题,其中的信息可能已经有所发展或是发生改变。
    拿自己电脑跑,处理分析自然语言数据(中文)
    硬件是 1080TI 显卡
    首先,不管参数多少,必须要量化到 4bit ,然后用 llama.cpp 跑,下面说的都是 4BIT 量化后用 llama.cpp 跑的表现
    70B 往上的模型,应该都无缘。就算能跑起来,推理速度也是个大的问题。或者大家看有没有更好的部署方案

    上午测试了一些 10B 以下的模型,表现较好的有下面三个:
    Qwen2.5-7B-Instruct: 10B 以下,表现最好
    Gemma 2 9b It SimPO:缺点是经常会夹杂英文单词。普林斯顿的 NLP 小组微调出来的,看照片和人名清单,一堆 Chinese
    Yi-1.5-9B-Chat: 表现次于 Qwen2.5-7B

    其它的,比如 MiniXXXX-4B ,只能说是个“玩具”,离“工具”的差距还不小
    还有一些模型,目的似乎只是研究,只能冲冲排行榜

    正在下几个 1XB 和 3XB 的模型,下午继续测试

    看大家有没有推荐的
    第 1 条附言  ·  41 天前
    最后选择了 gemma 2 9b it 4bit
    1 条回复    2024-10-14 14:16:37 +08:00
    kevan
        1
    kevan  
       51 天前
    试试 B 站的 Index-1.9B-Chat-GGUF 4bit 版本,我觉得还可以
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5989 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:13 · PVG 10:13 · LAX 18:13 · JFK 21:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.