![]() |
1
billbob 6 天前
成本更大,不是组词的问题,而是准确性,让 AI 理解意思,训练相当于你要让 AI 记准确答案,不是胡编乱造.不然你生成的答案也是胡说八道
|
![]() |
2
hahastudio 6 天前
我不懂纯瞎掰啊
按这个说法,那英文直接按 26 个字母拆 token ,岂不是训练起来更高效? 如果要让 LLM 正确理解词语,那中文是不是得按词语算一个 token 更对一些? 话说用中文训练,也得要有大量优质的训练材料吧 |
3
paopjian 6 天前
没有关系逻辑, 这次中文火了只是因为 deepseek, openai 可没开源, 他们在 ds 开源之前就有思维链,但是没有告诉你怎么思考的, ds 的 r1 突破就在于把思维链完成展示出来了.
ps. 测试版的 r1 模型思维链也是英文的 |
![]() |
4
hullhutt 6 天前 ![]() 你说反了,因为中文的资料垃圾比较多
|
![]() |
5
retrocode 6 天前
预测即将水深火热
|
![]() |
6
hafuhafu 6 天前
AI 也不能真实的理解词语或文字的意思。
如果只是统计预测,中文似乎没有优势,反而更高的文字密度和多义性会带来更大的困难? |
7
cbythe434 6 天前
总体的信息熵决定上限,每个语种都存在极少部分语言特色词汇,不影响总体表现,本质上大家都能到达同一水平。
单个字的信息熵中文比较大,可以理解为初始化的 embedding 有点优势,不过海量的数据面前,这点微小差异不算啥。 研究这个就好比尿液太黄对黄河水质的影响 |
![]() |
8
yukino 6 天前 via Android ![]() 问道于盲
|
9
Morgan2 6 天前
“英文往往需要创造全新的单词” 语言的精确性在逻辑上讲应该是优势吧?
|
10
FireKey 6 天前
训练不了解,对话的时候有点优势吧,用更少的 token 传递信息
|
11
yinmin 6 天前 via iPhone
ai 是以 token 为基础的,英文通常是一个单词对应一个 token ,中文是一个汉字对应一个 token (极少情况是几个汉字组成一个 token )。
由于汉语是以词组为单元,因此相同含义的一句中文对应的 token 数通常会大于英文的 token 数量,我觉得 stem 类知识,应该是英文更有优势吧。 |
12
stardustree 6 天前
非专业,猜测下应该不会,因为中文的分词很复杂。比如搜索引擎中。英文里,只要按标点符号对长文本进行切分,就能获取一个个单独的词,除了一些助词,基本每个词都有明确的含义,可以用来搜索、标记、分类当前的内容。而中文,要结合语义才能分词,比如本文的标题,单独的“中”字意义不明确,“中文”才是明确的一个词。
|
![]() |
13
AslanFong 6 天前
我理解其实不用考虑这个问题,从机器的视角都是字符罢了
|
![]() |
14
ixcode 6 天前 ![]() “因为中文新词大多是已有汉字的组合,而英文往往需要创造全新的单词。这使得中文在词汇生成和理解上更高效,训练成本也可能更低。”
OP 不记得当年被中文分词支配的恐怖了吗: 来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。” 来到儿子等校车的地方,邓超对孙俪说:“我也想等等等等等过的那辆车。” 赵敏说:我也想控忌忌己不想无忌。 你也想犯范范范玮琪犯过的错吗 对叙打击是一次性行为? 《绿林俊杰》--林俊杰做错了什么?为什么要绿他 一位友好的哥谭市民 校长说衣服上除了校徽别别别的 过几天天天天气不好 看见西门吹雪点上了灯,叶孤城冷笑着说:“我也想吹吹吹雪吹过的灯”,然后就吹灭了灯。 今天多得谢逊出手相救,在这里我想真心感谢“谢谢谢逊大侠出手” 灭霸把美队按在地上一边摩擦一边给他洗脑,被打残的钢铁侠说:灭霸爸爸叭叭叭叭儿的在那叭叭啥呢 姑姑你估估我鼓鼓的口袋里有多少谷和菇!! “你看到王刚了吗”“王刚刚刚刚走” 张杰陪俩女儿跳格子:俏俏我们不要跳跳跳跳过的格子啦 骑车出门差点摔跤,还好我一把把把把住了 我朋友问父亲:我大大大(大大爷)和我姑姑谁年龄大?朋友爸爸说:你大大大大! 我背有点驼,麻麻说“你的背得背背背背佳 南京市长江大桥 质量和服务一样重要 他正在量和服尺寸 黑化肥挥发会发灰 沿海南方向逃跑 我不懂你不懂什么 北京大学生前来应聘 我也想过过过儿过过的生活 孙悟空着肚子去上海洋人防工程的课 结婚的和尚未结婚的 结婚的和尚未结婚的都成了和尚 这个把手该换了 我一把把把儿把住了 他一把把把把住了 骑车差点摔倒, 好在我一把把把把住了 办事处女干事这个月经过了考核 我也想等等等等等过的那辆车。 胖胖的胖胖不想再胖胖 你家的地得扫了,还不得加把劲 平仄平仄平平仄 我没什没意思就是意思意思 我吃了饭了钱我给你 小刚刚刚刚来过 想你你不在 上海自来水来自海上 一个研究生命令我感到非常不满意 四是四十是十十四是十四四十是四十 你知不知道我不知道你知道我是谁 黑化黑灰化肥黑灰会挥发发灰黑化肥黑灰化肥挥发 红鲤鱼绿鲤鱼与驴 你开完会吃还是开会的时候吃还是开之前吃呢 我研究生期间是研究生物的 我在车上看桥下看桥上风景的狗的人 我爸是我爸,我是我爸儿 我没有上上上上海的火车 我差点没赶上上上海的车 让你别别别别,非得别 沿海南方向逃跑 研究生活水平 只顾顾顾老师来了 我为人人人人为我 他将来上海学习 这幅画画了个画画画的好的人 我想梦梦梦梦过的梦 叫你别别这个钥匙你非得别一别就别坏了 下雨天留客天留我不留 人要是行,干一行行一行,一行行行行行,行行行干哪行都行。 碳碳链键能能量量化化学 尿尿尿不出尿来三天 无线电法国别研究 |
15
openmynet 6 天前 ![]() ds-r1 是以 ds-v3 为底经过强化学习后的推理模型。但 r1 在 mmlu-pro 上的评分要好于 v3 版本,这意味其实很多模型其实是有足够的知识储备,但缺乏对知识的理解与运用。r1 展示了模型经过强化学习后的模型对知识的抽象能力,类似于 alphaGo 。
这些抽象能力足够让 r1 能够理解成语典故等知识,这意味的可以模型可以使用更少的词汇理解更多的知识,使模型不再局限于人类约定的分词语义而由模型重新定义了分词。即分词语义被模型重新定义成为理解知识一种符号。常规的分词模型其分词数量是对于模型来说否合理很难界定。理想的状态是大语言模型可以自己确定分词的数量和分词的方式。 前段时间就有一篇 meta 的论文 Byte Latent Transformers https://arxiv.org/pdf/2412.09871 正在尝试解决类似的问题,从这方面看,我觉得 中文 确实要不 英文 更具优势。 |