V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
caizhenbin
V2EX  ›  程序员

哪个开源模型最擅长翻译?

  •  
  •   caizhenbin · 3 天前 · 3495 次点击

    使用 Qt 开发的安卓 app ,目前是英文界面,play 商店上下载量一直不多,希望做本地化来提高下载量,所以需要翻译多语言 ts 文件。

    测试了在线的 ChatGPT 、Kimi 、DeepSeek ,以及 VS Code 中使用豆包 API ,都因为文件太长(有 2000 行)不能全部翻译,再要求继续翻译 AI 就开始偷懒,甚至不输出。

    于是写了个 python 脚本调用 llamafile 在本地的 server api ,逐句翻译,模型用的 Llama-3.2-3B-Instruct.Q6_K (本地没有 GPU ),发现翻译质量挺差的,译文用词不合适,或者同一个名词在不同句子中翻译不一样(是否因为逐句翻译的原因?)。

    想换个其他模型试试,但不知道哪个最擅长翻译工作(模型不能太大,不然运行不起来,电脑是 mini 主机)?或者有其他可行的在线方案?谢谢

    34 条回复    2025-04-18 23:16:26 +08:00
    iwdmb
        1
    iwdmb  
       3 天前
    DeepL
    NoOneNoBody
        2
    NoOneNoBody  
       3 天前
    口碑最好是 deepl ,但我没试过

    用 AI api 翻译的话,你要给一大段提示词(就是任务的说明描述),逐条作出限制
    举例:韩国综艺字幕
    你就要说明:
    提交的是一个韩国综艺节目字幕,人名、地名、专有名词符合韩国文化,人名多数为韩国名人,翻译要汉语观众容易理解,每行不应太长,需要口语化,同一个人名包括不含姓氏要翻译成一样,只返回翻译结果,格式要求……等等
    使用多轮对话模式,每次提交都要带上这段提示词,可能的话,提交内容要有部分和上一个提交重合,这样才能维持整个翻译结果划一
    caizhenbin
        3
    caizhenbin  
    OP
       3 天前
    @iwdmb 谢谢,我去了解一下
    caizhenbin
        4
    caizhenbin  
    OP
       3 天前
    @NoOneNoBody 感谢,看来重点是要改进提问方式,也许当前模型也能变得满足要求
    tool2dx
        5
    tool2dx  
       3 天前
    我也是本地跑韩文翻译。

    感觉小模型的语料和在线大模型相比,完全不是一个数量级的。特别是韩语之类的,遇到项目专有名字,直接就不会了。
    tool2dx
        6
    tool2dx  
       3 天前
    “模型用的 Llama-3.2-3B-Instruct.Q6_K”

    你这个模型参数太小了,要让语句看起来合理通顺,最少需要 gemma3-12B 或者 gemma3-27B 起步

    把迷你主机卖了,换台式机,配个 16G 的 GPU ,跑本地翻译飞快。
    eBPF
        7
    eBPF  
       3 天前
    (不是开源模型,但也能免费用,比如 OpenRouter 上的免费 Gemini: https://openrouter.ai/models?max_price=0&q=gemini

    我的 i18n 是用 Claude Sonnet 3.7 翻译的,从英文翻译到中、法、德、俄、西、葡,效果还不错。用 Cursor/Copilot/Cline 之类的在编辑器里直接翻译就好了。

    另外我感觉 Gemini 的效果会比 Claude 更好,一方面 Gemini 创意写作能力更强,其次上下文窗口大。
    111111111111
        8
    111111111111  
       3 天前
    既然只是临时使用,建议用在线模型,质量好成本低
    处理长内容可以考虑这样:
    1. 先把待翻译的文件切片,然后调教一个质量好的提示词,
    2.翻译时每次发送:提示词+切片内容,
    3. 最后把所有的切片的翻译合并在一起
    SakuraYuki
        9
    SakuraYuki  
       3 天前
    学术文章翻译还是 deepl ,如果是日常对话之类的翻译 LLM 都差不多
    zealotxxxx
        10
    zealotxxxx  
       3 天前
    两千行,不多呀。直接找个上下文大点的就行了。现在 gpt-4.1-mini 、gemini 2.5 pro 等等的 token 都很大了 1000K 完全够用了
    Is0
        11
    Is0  
       3 天前
    本地跑 qwen2.5 或 2 都还行,但都不如直接沉浸式翻译用 api 来的快,https://siliconflow.cn/ 有免费额度,跑翻译完全够
    old9
        12
    old9  
       3 天前
    gemma3 27b 本地效果挺好的
    wowpaladin
        13
    wowpaladin  
       3 天前
    DeepSeek-V3-0324 挺好的
    duzhuo
        14
    duzhuo  
       3 天前
    一般都是便宜的最好哈哈
    quqiu
        15
    quqiu  
       3 天前
    我现在用 Google ai studio
    EthanZC
        16
    EthanZC  
       3 天前
    我开了沉浸式翻译会员
    OpenAI 使用 gpt-4.1-mini(今天刚更新), Claude 使用 claude-3-5-haiku-20241022, Gemini 使用 gemini-2.0-flash, 智谱使用 glm-4-plus, DeepSeek 使用 DeepSeek V3 0324
    还有 DeepL

    实际体验下来,Gemini 完胜,其次是 DS,然后自己再加一些提示词,稍微改改,翻译效果,直接起飞,以前 openAI 用的老模型,效果不行,新的模型还没测试

    DeepL 已经是昨日黄花了,在现在大模型的支持下,AI 翻译已经完完全全超越了传统的那些翻译服务
    bluehr
        17
    bluehr  
       3 天前
    Deepl 在线翻译 感觉完全不如现在的 chatgpt 和 deepseek 之类的
    caizhenbin
        18
    caizhenbin  
    OP
       3 天前
    感谢各位的思路,根据 @zealotxxxx 的建议使用 gemini 2.5 pro 可以翻译了,质量很好(之前用 flash 测试过,太长翻译不完)。也测试了 DeepL ,质量可以,只是把文字提取出来粘贴到输入框,而其他聊天大模型之间粘贴 ts 文件内容。还在沉浸式翻译里面用了几个传统翻译服务,发现质量真的比不上大模型,比如“Auto”翻译成汽车,“Margin”翻译成利润,和上下文没有关联。
    AstroProfundis
        19
    AstroProfundis  
       3 天前
    翻译前后不统一可以试试给它一个术语表之类的
    InkStone
        20
    InkStone  
       3 天前
    @EthanZC 感觉如果没有大规模翻译需求的话,沉浸式翻译的会员不如用自己的 API 按量付费……

    我最近也从 Deepseek v3 0324 切成了 GPT 4.1 mini 。价格只稍高一点,响应速度快很多。
    zhze93
        21
    zhze93  
       2 天前
    我们之前用的 nllb_200
    EthanZC
        22
    EthanZC  
       2 天前
    @InkStone 会员的 2000W 月额度没有你想象中那么多,我都不算什么大容量需求的人,就看看 YouTube,然后偶尔看看英文开发文档, 清明三天都没咋用,结果到今天,给我消耗了 1300W 的额度,这才 17 号...要弄到月底..真的有点不够用
    SiWXie
        23
    SiWXie  
       2 天前 via iPhone
    pc 版的欧陆词典,用着还不错,支持自定义 api 接口
    Xheldon
        24
    Xheldon  
       2 天前
    @tool2dx 你的韩语翻译是怎么处理的最后? 我的项目 https://appledocs.dev ,翻译文档有多个回滚的策略,和特定指令。前一个模型翻译不符合我的要求(我会检测翻译结果以符合特定要求),才会使用更高级的模型,回滚策略依次是 Qwen-2.5-14B -> 32B -> 72B -> Grok-2 -> Grok-3 ,目前看只有韩语最终落到高成本的 Grok-3 处理的概率是最高的,其他语言比如日语、中文就很少需要 Grok-3 处理的,很头疼,感觉还是大模型韩语训练语料太少导致的,有什么解决办法吗
    enihcam
        25
    enihcam  
       2 天前   ❤️ 1
    DeepL 好个屁,扯淡。
    acezgq
        26
    acezgq  
       2 天前
    开源的 GLM-4-9B
    caizhenbin
        27
    caizhenbin  
    OP
       2 天前
    @acezgq 正想说这个,因为 gemini pro 超出每天限量,还有几个语言没有翻译,刚才正好试用了一下 https://chat.z.ai/ ,选择 GLM-4-32B ,上下文数量也能支持我的语言文件的翻译任务,质量也很好,甚至不需要登录,也没有用量限制,除了速度不如 gemini ,其他方面完全没问题。
    Azmeont
        28
    Azmeont  
       2 天前
    别说翻译了,几乎所有任务上,DeepSeek-V3 和 R1 都是最好的开源模型,其次的是 Qwen 和 QwQ 系列。
    Azmeont
        29
    Azmeont  
       2 天前
    @Azmeont #28 准确来说是 V3.5 和 R1
    BenX
        30
    BenX  
       2 天前 via iPhone
    Phi-4
    msg7086
        31
    msg7086  
       2 天前
    只用过日中翻译,翻译结果主要观察正确性和表达的流畅度。
    综合下来最强的是 Claude 和 Gemini Pro ,如果你是做翻译的,取其中一个当底稿然后照着另一个改,基本就八九不离十了。
    开源里我就只用了 Deepseek 0324 ,因为 DS 用的语料和国外的不太一样,所以表达出来的用词用语也差别很大,可以看到很多本地化的表达( Gemini/Claude 的表达会更「正统」「生硬」一些),但大多数时候会觉得有点过于放飞自我了,很长一句句子给你缩成一个短句,选择性扔掉一半,剩下的找个本地表达。
    其他国产模型没什么机会用,就不多评价了。
    bbsingao
        32
    bbsingao  
       1 天前
    3b 不够,我公司自建的 gpu 资源,qwen-14b,上下文设置 16k 就很好了。
    v2ruiex
        33
    v2ruiex  
       1 天前
    ai 翻译还是需要调教的,其实翻译的项目 GitHub 肯定很多,不建议重复造轮子。我用的是 AiNiee ,买了 ds 的 api ,体验良好。
    想自己写,你也可以看看他们是怎么调教 ai 的,获取一些经验想法,比如 AiNiee ,有很多功能,如提示词、术语表、禁翻表。采用一些的话,应该也会提升翻译的质量。
    openmynet
        34
    openmynet  
       1 天前
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2621 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:34 · PVG 15:34 · LAX 00:34 · JFK 03:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.