如何进行大模型知识蒸馏

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 32 天前的主题，其中的信息可能已经有所发展或是发生改变。

网上的说法都是生成软目标,但是如果调用 gpt 的话不能生成软目标吧

知识蒸馏

软目标

GPT

7 条回复 • 2025-02-03 14:49:45 +08:00

xstress

32 天前

distill 的模型不是针对于 qwen 、llama 的吗

dianso

32 天前

普通人类别想了，这东西太费钱

houshuu

32 天前 via iPhone

很多年没干蒸馏了，不知道现在还是不是这样。
软目标的设置终究是为了更多的得到当前概率分布和目标概率分布的差值，那么在这个基础上如果能有另外手段来计算两个回答间的散度即可，不需要一定要有个确定的目标。
机器学习手法有很多假设性的东西，设定一个公式自圆其说很多时候就行了。比如我直觉上第一个想到的，用另外一个模型把学生信号和教师信号语义分别分解到另外一个统一空间内，然后算下距离啥的。
蒸馏也算个老东西了，llm 蒸馏可能搞不来但其他视觉模型啥的以前个人都是可以搞的

ruidoBlanco

32 天前

为什么都翻译成「蒸馏」

「提炼」不是更合适吗？

难不成搞翻译的只剩下机器了吗。

googlefans

32 天前

这招听高的抄近路

thinszx

31 天前

@ruidoBlanco 是从知识蒸馏过来的，这个概念比大模型出现的早得多，而且蒸馏和提炼本身也没啥差啊

rogerer

31 天前

@dianso 蒸馏还好，要去训练的模型不是 LLM 的规模。
---
现在大家用 LLM 的结果去蒸馏，蒸馏学习的目的是让更大的模型作为小模型的 supervisor ，这样能让小模型学到大模型的能力，所以直接学输出也是可以的。