V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
drymonfidelia
V2EX  ›  程序员

为什么 LLM 模型不能按语言拆分,英文问题就只用英文语料训练出来的模型、日文问题就只用日文语料训练出来的模型,这样不是可以大幅减少参数量?

  •  1
     
  •   drymonfidelia · 8 小时 2 分钟前 · 1084 次点击
    19 条回复    2025-02-02 00:10:41 +08:00
    dji38838c
        1
    dji38838c  
       7 小时 59 分钟前
    太低估别人了。
    觉得连这么简单的东西都没有尝试过
    没有什么用的
    drymonfidelia
        2
    drymonfidelia  
    OP
       7 小时 59 分钟前
    @dji38838c 我知道别人尝试过了,我的问题是为什么没有什么用?
    dalaoshu25
        3
    dalaoshu25  
       7 小时 52 分钟前
    除了英文,其他语言没什么信息量吧。特别是汉语语料,全是垃圾。
    chingyat
        4
    chingyat  
       7 小时 38 分钟前
    其他语言的语料加起来也不到英语的零头吧
    user8341
        5
    user8341  
       7 小时 36 分钟前
    这样做连基本的翻译功能都没有了。
    fcten
        6
    fcten  
       7 小时 24 分钟前
    楼主可知道语言模型最初的目的是为了翻译……
    其次,这样做并不能大幅减少参数量,道理就和你掌握一门新语言并不需要从 1+1=2 开始学习一样。大量的知识是与语言无关的。
    再其次,清洗训练数据会花费大量的时间。而且更小的训练集 = 更差的模型。
    drymonfidelia
        7
    drymonfidelia  
    OP
       7 小时 23 分钟前
    @user8341 LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了
    neteroster
        8
    neteroster  
       7 小时 18 分钟前
    因为模型能在语言间泛化,不仅包括人类语言,也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。

    #7 > LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了

    当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度,特别是在上下文充足的情况下,已经不是传统的翻译模型可以企及的了。
    windyboy
        9
    windyboy  
       7 小时 8 分钟前
    基本都是英语材料训练的
    语言翻译只是一个副产品
    user8341
        10
    user8341  
       6 小时 8 分钟前
    @windyboy

    你这是自己的猜测,还是实际参与了,还是有确切的数据?

    据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%
    fun201108
        11
    fun201108  
       5 小时 50 分钟前
    从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
    windyboy
        12
    windyboy  
       5 小时 9 分钟前
    @user8341 deepseek 不是用别人的模型来训练的吗?
    TimePPT
        13
    TimePPT  
       5 小时 8 分钟前
    有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
    daweii
        14
    daweii  
       4 小时 46 分钟前 via iPhone
    一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。

    一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。

    话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。
    cnt2ex
        15
    cnt2ex  
       4 小时 15 分钟前
    因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。
    弄成小模型小数据集效果反而不会那么好。
    yoghurtguy
        16
    yoghurtguy  
       3 小时 50 分钟前 via iPhone
    翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
    xziar
        17
    xziar  
       3 小时 48 分钟前
    参数量和训练语料是两码事,还是说你是指 chinchilla 的 scaling rule ?
    目前来看模型智慧水平还是随训练数据量递增的,想要参数量少,直接蒸馏到小模型不就好了。
    wdlth
        18
    wdlth  
       3 小时 42 分钟前
    如果只用单个语言的资料去建立大模型,那怎么算完整呢?比如历史记录大多数都是当地语言的,但对历史的研究可以由用不同的语言的人进行发表。
    并且很多的翻译本身就是音译,那算是外语呢还是本土语言?
    mumbler
        19
    mumbler  
       3 小时 38 分钟前
    目前最可行的方法就是蒸馏,用大模型生成数据去训练小模型,o3 mini 就是 o3 或者 o4 生成数据训练的,只需要 20B 就能达到 2000B 的 80%水平,这样成本大大降低
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   722 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:48 · PVG 03:48 · LAX 11:48 · JFK 14:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.