V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
freefly111
V2EX  ›  程序员

在编程能力方面, Gemini 和 GPT 哪个正确率更高?

  •  2
     
  •   freefly111 · 34 天前 · 5449 次点击
    这是一个创建于 34 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近我练算法主要使用 Gemini 和 GPT 。

    我发现有时 GPT 会提供一些有错误的代码,这时候 Gemini 也可能会给错误的代码。

    但 Gemini 强在速度比较快。

    想问问各位的意见。

    第 1 条附言  ·  32 天前
    谢谢各位的建议。
    已经开始用 Claude 3.7 Sonnet 了。
    43 条回复    2025-03-15 21:50:57 +08:00
    MarsOnly
        1
    MarsOnly  
       34 天前   ❤️ 4
    我比较喜欢 Claude 3.7 Sonnet ,其次 DeepSeek R1
    alwaysol
        2
    alwaysol  
       34 天前
    gpt 正确率更高,Gemini 就只剩快了
    disorientatefree
        3
    disorientatefree  
       34 天前
    代码问题个人感受是

    开源的东西,Claude 3.7 Sonnet 最好, Gemini / ChatGPT / Grok / DeepSeek 这几家的思考模型差不太多

    私有大项目的话,Gemini 靠 context window 大,把整个项目喂进去,稍稍有点优势,但不大
    383394544
        4
    383394544  
       34 天前   ❤️ 1
    grok3 比 chatgpt 强
    wxyrrcj
        5
    wxyrrcj  
       34 天前
    DeepSeekv3
    FlorentinoAriza
        6
    FlorentinoAriza  
       34 天前   ❤️ 1
    最近用的挺多 windsurf 配合 3.7 很 ok ,部分问题使用 gpt-o3 解决的,至于 DS 为什么还有人觉得厉害我只能说他们没付款用过。用了 trae 的 r1 给我气的半死。做积分活动修改积分方法,解决原子性问题蹦出个死锁,解决死锁蹦出个嵌套事务,然后三个无限循环来来回回改。最后不再信任上下文记忆让兼顾三个问题解决,好嘛,解决完三个问题都出来了,最后用的 o3
    FlorentinoAriza
        7
    FlorentinoAriza  
       34 天前
    @FlorentinoAriza #6 根本没在乎基础业务逻辑,就像面试,光顾着高并发等问题解决最后基础逻辑走不通,仅仅单次调用接口时间 x20 最后来个系统繁忙
    daimaosix
        8
    daimaosix  
       33 天前
    Gemini 这个鸡毛犟种,打死不用
    lihanst
        9
    lihanst  
       33 天前
    Claude 永远的神
    cnrting
        10
    cnrting  
       33 天前 via iPhone   ❤️ 1
    ge-mini 名字不都已经告诉你了么 阉割 mini 模型
    masterArcher
        11
    masterArcher  
       33 天前   ❤️ 1
    第一梯队 Claude 3.7 Sonnet 、o3 mini
    Claude 更擅长于使用语法糖 有时候容易出幻觉,o3 mini 更适合常规开发

    其次是 git commit 的适合 qwen 总结合适

    最后 Gemini 快、2M 输出一骑绝尘,正确率堪忧
    ACCI
        12
    ACCI  
       33 天前   ❤️ 1
    推荐 Claude 3.7 Sonnet
    williampan
        13
    williampan  
       33 天前
    flowith.io 怎么看
    pkoukk
        14
    pkoukk  
       33 天前
    Claude 3.7 Sonnet 速度,准确性,代码质量一骑绝尘
    imsoso
        15
    imsoso  
       33 天前
    grok3 目前推广期,免费版比较舍得出力
    xz410236056
        16
    xz410236056  
       33 天前   ❤️ 1
    编码来说 claude 断崖领先,deepseek 紧随其后,其余差不多。 人文社科领域感觉 grok 更强
    blackocean
        17
    blackocean  
       33 天前
    我只用过 o3 mini ,目前都能满足我的需求。想试下 Claude 3.7 Sonnet 。
    jdz
        18
    jdz  
       33 天前
    我试过几次 Gemini, 就是大废物
    sherlockwhite
        19
    sherlockwhite  
       33 天前
    @xz410236056 同这样感觉,现在模型里面 Coding 领域 Claude 断崖领先,不知道那些用 openai 吭哧吭哧写代码的用没用过 Claude 。grok3 在日常使用(非 coding 领域)非常好用
    HappyAndSmile
        20
    HappyAndSmile  
       33 天前
    基本所有有名的模型都使用过,写代码领域,除了 claude ,其它我都认为是垃圾,总是给我报错的代码,只有 claude 给了我直接替换运行的自信
    disorientatefree
        21
    disorientatefree  
       33 天前
    三家的收费账户, 再加上 Grok 的免费试用

    Claude >>> Gemini > ChatGPT > Grok (单说代码相关,Grok 其实挺好的)
    maxwel1
        22
    maxwel1  
       33 天前
    写代码的话,不考虑价格,其他几家在 chatgpt 面前就是智障,如果你没这种体会,就是你用的太少。
    lew1
        23
    lew1  
       33 天前
    注册 Claude 需要国外手机验证码,老哥们有什么好办法吗
    huangweipeng
        24
    huangweipeng  
       33 天前
    @lew1 https://yeka.ai/i/HWP 链接有 aff ,介意的话可去掉后三位,我是用这个虚拟卡作为 Claude 支付的(被封的话钱还会退回卡里),工具箱可免费的 3 个手机号用于验证注册,使用完 3 次后可以付费买手机号 https://imgur.com/a/0gM4M2v
    crackidz
        25
    crackidz  
       33 天前
    这两个里面选的话,GPT 会比 Gemini 好
    aiqinxuancai
        26
    aiqinxuancai  
       33 天前
    写代码的 参考这个排名
    https://aider.chat/docs/leaderboards/
    akakidz
        27
    akakidz  
       33 天前
    GPT o3 mini 体验很好
    min
        28
    min  
       33 天前
    sonnet 3.7: 看你们两个菜鸡互啄 lol
    cat9life
        29
    cat9life  
       33 天前
    你居然没提到 Claude
    wheat0r
        30
    wheat0r  
       33 天前
    Gemini 就是哄鬼的
    chesha1
        31
    chesha1  
       33 天前
    在编程方面,Gemini 2.0 Pro 全面不如 o1 和 claude 3.7 ,你可以看下 livebench 和我自己写了几个测试用例: https://echoccc.online/posts/llm-test/
    iflint
        32
    iflint  
       33 天前
    国内有方法稳定使用 Claude 3.7 吗
    unco020511
        33
    unco020511  
       33 天前
    Claude 3.7 Sonnet
    urlpha
        34
    urlpha  
       33 天前
    @iflint 直接开 cursor 订阅,结合 cursor rule 用的飞起。
    drymonfidelia
        35
    drymonfidelia  
       33 天前
    @imsoso grok3 比较适合问问题,写的代码一般般 bug 挺多
    crackidz
        36
    crackidz  
       33 天前
    @iflint trae ?
    zhibisora
        37
    zhibisora  
       33 天前
    claude 3.7 和 gpt o3-mini 最好, 其次 r1, 然后 gemini 2.0 flash
    CHEN1016
        38
    CHEN1016  
       33 天前 via iPhone
    @lew1 在用 openrouter
    383394544
        39
    383394544  
       32 天前 via iPhone
    @iflint copilot 现在可选 claude 3.7 模型
    highf4324
        40
    highf4324  
       32 天前
    @cnrting 没有读对,Gemini 的 Ge 并不发 “割”的音
    HENQIGUAI
        41
    HENQIGUAI  
       32 天前
    Claude 3.7 太贵了不怎么舍得用,重度使用 Deepseek V3, 还凑活,不过感觉好像写代码方面比 Claude 3.5 还差点意思。
    mmdsun
        42
    mmdsun  
       32 天前 via iPhone
    编程的话 Github Copilot 正确率最高,模型可以选 GPT-4o 、Claude 3.7
    ysy950803
        43
    ysy950803  
       32 天前
    如果搞 Android 开发要解决代码问题的话,用谷歌的 Gemini 其实还不错(现在 Studio 也自带了),真就是各家擅长什么,其 AI 就擅长什么,知识库的区别。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5209 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 01:20 · PVG 09:20 · LAX 18:20 · JFK 21:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.