V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
houshuu
V2EX  ›  Local LLM

DeepSeek V3

  •  
  •   houshuu · 1 天前 · 1614 次点击

    https://github.com/deepseek-ai/DeepSeek-V3

    看了下 Code 榜单,性能提升挺明显。

    像 Aider 、Polyglot 这类任务,和日常用自然语言修改的准确率体感是比较接近的。如果不刻意刷榜,感觉至少接近 3.5 Sonnet 的水平了。

    官方 API 价格虽然涨了几倍,但相比 OpenAI 和 Claude 依然是白菜价,输出 100 万 token 就 1 刀出头。

    已经把 avante.nvim 的默认模型从 Sonnet 换到 V3 了,接下来几天打算实际测试下提问和修改的准确率。 之前尝试用 2.5 平替但是准确率和 Sonnet 差的还是挺远的,希望这次效果不会失望。

    17 条回复    2024-12-27 13:27:22 +08:00
    mumbler
        1
    mumbler  
       23 小时 35 分钟前
    性价比最高的还是 gemini 2.0 flash,免费 1500qpd, 100 万上下文,多模态,能力和 gpt4o 一个级别, 收费也才 1 元人民币/M
    hbdh5
        2
    hbdh5  
       22 小时 10 分钟前   ❤️ 2
    没人关注训练部分吗?看看原始论文,推理部分的优化似乎来自蒸馏自家的推理模型,auxilary loss 动态调度负载 + DualPipe 优化 pipeline bubbles + 根据通信做混合精度优化, 计算与通信的瓶颈的优化做到极致了。以至于训练成本只有 500 多万刀,和 o 家和 g 家比算是用乞丐的成本达成了至少也是不相上下的结果。要我说,closedai 不做人干脆把 gpu 匀给 deepseek ,可惜匀不得。
    dwu8555
        3
    dwu8555  
       18 小时 44 分钟前
    deepseek 还是国人的项目?

    AlohaV2
        4
    AlohaV2  
       18 小时 38 分钟前
    @dwu8555 是的。猜猜他家资金咋来的🤣
    apollo007
        5
    apollo007  
       18 小时 38 分钟前 via iPhone
    我觉得这个处理文科类的,效果比 claude 3.0 opus 还牛
    sutking
        6
    sutking  
       18 小时 31 分钟前 via iPhone
    @AlohaV2 #4 咋来的?😳感觉好神秘。
    bk201
        7
    bk201  
       18 小时 19 分钟前
    @sutking
    @AlohaV2 收割 a 股股民是吧
    suguo210
        8
    suguo210  
       18 小时 11 分钟前
    幻方用来收割韭菜的利器
    AlexHsu
        9
    AlexHsu  
       17 小时 16 分钟前
    这玩意有 671b 参数?本地弄起来得多少 h100 啊
    FakerLeung
        10
    FakerLeung  
       16 小时 43 分钟前
    写代码跟 claude3.5 比起来如何?
    andrew2558
        11
    andrew2558  
       16 小时 30 分钟前
    看了很多人推荐 deepseek,所以也想试一下,好家伙,要电话号码不说,还要身份证号码。闪了闪了
    houshuu
        12
    houshuu  
    OP
       16 小时 27 分钟前
    @FakerLeung

    榜单上的话不说同水平,至少逼近是有的。
    但这个实际效果还得自己去体感测试下,反正现在用 API 还是打折的,一百万 token 才两块钱,放到 cursor ,avante 里面高强度用个一周先看看效果。
    也可以试试网页版的 V3 ,注册后是纯免费的。
    dgthyiolyjmyt2
        13
    dgthyiolyjmyt2  
       16 小时 24 分钟前
    @dwu8555 幻方的,还是 fp8 训练的,训练过程全程无回滚
    houshuu
        14
    houshuu  
    OP
       16 小时 22 分钟前
    @andrew2558 不需要吧,用英语界面试试,海外也挺多用 deepseek 的
    wyhooo
        15
    wyhooo  
       16 小时 2 分钟前
    @dwu8555 你的对手盘就是这玩意。
    neteroster
        16
    neteroster  
       15 小时 12 分钟前 via Android
    先不谈性能,工程上就很强。整个模型训练的 H800 GPU Hour 甚至低于训练两次 LLaMA3 8B 的 H100 GPU Hour ,这还是在 H800 阉割了互联的情况下
    hbdh5
        17
    hbdh5  
       13 小时 19 分钟前
    @neteroster 是的,论文主要的亮点就是训练部分,不得不说还得是 MoE ,要是 dense 模型参数太大的话一张卡放不下数据交换的妈都不认识,根本没地应用这么多优化。只能送钱给老黄。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1117 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:46 · PVG 02:46 · LAX 10:46 · JFK 13:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.