1
dji38838c 7 小时 59 分钟前
太低估别人了。
觉得连这么简单的东西都没有尝试过 没有什么用的 |
2
drymonfidelia OP @dji38838c 我知道别人尝试过了,我的问题是为什么没有什么用?
|
3
dalaoshu25 7 小时 52 分钟前
除了英文,其他语言没什么信息量吧。特别是汉语语料,全是垃圾。
|
4
chingyat 7 小时 38 分钟前
其他语言的语料加起来也不到英语的零头吧
|
5
user8341 7 小时 36 分钟前
这样做连基本的翻译功能都没有了。
|
6
fcten 7 小时 24 分钟前
楼主可知道语言模型最初的目的是为了翻译……
其次,这样做并不能大幅减少参数量,道理就和你掌握一门新语言并不需要从 1+1=2 开始学习一样。大量的知识是与语言无关的。 再其次,清洗训练数据会花费大量的时间。而且更小的训练集 = 更差的模型。 |
7
drymonfidelia OP @user8341 LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了
|
8
neteroster 7 小时 18 分钟前
因为模型能在语言间泛化,不仅包括人类语言,也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。
#7 > LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了 当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度,特别是在上下文充足的情况下,已经不是传统的翻译模型可以企及的了。 |
9
windyboy 7 小时 8 分钟前
基本都是英语材料训练的
语言翻译只是一个副产品 |
10
user8341 6 小时 8 分钟前
|
11
fun201108 5 小时 50 分钟前
从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
|
13
TimePPT 5 小时 8 分钟前
有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
|
14
daweii 4 小时 46 分钟前 via iPhone
一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。
一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。 话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。 |
15
cnt2ex 4 小时 15 分钟前
因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。
弄成小模型小数据集效果反而不会那么好。 |
16
yoghurtguy 3 小时 50 分钟前 via iPhone
翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
|
17
xziar 3 小时 48 分钟前
参数量和训练语料是两码事,还是说你是指 chinchilla 的 scaling rule ?
目前来看模型智慧水平还是随训练数据量递增的,想要参数量少,直接蒸馏到小模型不就好了。 |
18
wdlth 3 小时 42 分钟前
如果只用单个语言的资料去建立大模型,那怎么算完整呢?比如历史记录大多数都是当地语言的,但对历史的研究可以由用不同的语言的人进行发表。
并且很多的翻译本身就是音译,那算是外语呢还是本土语言? |
19
mumbler 3 小时 38 分钟前
目前最可行的方法就是蒸馏,用大模型生成数据去训练小模型,o3 mini 就是 o3 或者 o4 生成数据训练的,只需要 20B 就能达到 2000B 的 80%水平,这样成本大大降低
|