1
xstress 1 天前
distill 的模型不是针对于 qwen 、llama 的吗
|
2
dianso 1 天前
普通人类别想了,这东西太费钱
|
3
houshuu 1 天前 via iPhone
很多年没干蒸馏了,不知道现在还是不是这样。
软目标的设置终究是为了更多的得到当前概率分布和目标概率分布的差值,那么在这个基础上如果能有另外手段来计算两个回答间的散度即可,不需要一定要有个确定的目标。 机器学习手法有很多假设性的东西,设定一个公式自圆其说很多时候就行了。比如我直觉上第一个想到的,用另外一个模型把学生信号和教师信号语义分别分解到另外一个统一空间内,然后算下距离啥的。 蒸馏也算个老东西了,llm 蒸馏可能搞不来但其他视觉模型啥的以前个人都是可以搞的 |
4
ruidoBlanco 1 天前
为什么都翻译成「蒸馏」
「提炼」不是更合适吗? 难不成搞翻译的只剩下机器了吗。 |
5
googlefans 1 天前
这招听高的 抄近路
|
6
thinszx 23 小时 27 分钟前
@ruidoBlanco 是从知识蒸馏过来的,这个概念比大模型出现的早得多,而且蒸馏和提炼本身也没啥差啊
|