V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Suger828
V2EX  ›  程序员

如何进行大模型知识蒸馏

  •  1
     
  •   Suger828 · 2 天前 · 2076 次点击

    网上的说法都是生成软目标,但是如果调用 gpt 的话不能生成软目标吧

    7 条回复    2025-02-03 14:49:45 +08:00
    xstress
        1
    xstress  
       1 天前
    distill 的模型不是针对于 qwen 、llama 的吗
    dianso
        2
    dianso  
       1 天前
    普通人类别想了,这东西太费钱
    houshuu
        3
    houshuu  
       1 天前 via iPhone
    很多年没干蒸馏了,不知道现在还是不是这样。
    软目标的设置终究是为了更多的得到当前概率分布和目标概率分布的差值,那么在这个基础上如果能有另外手段来计算两个回答间的散度即可,不需要一定要有个确定的目标。
    机器学习手法有很多假设性的东西,设定一个公式自圆其说很多时候就行了。比如我直觉上第一个想到的,用另外一个模型把学生信号和教师信号语义分别分解到另外一个统一空间内,然后算下距离啥的。
    蒸馏也算个老东西了,llm 蒸馏可能搞不来但其他视觉模型啥的以前个人都是可以搞的
    ruidoBlanco
        4
    ruidoBlanco  
       1 天前
    为什么都翻译成「蒸馏」

    「提炼」不是更合适吗?

    难不成搞翻译的只剩下机器了吗。
    googlefans
        5
    googlefans  
       1 天前
    这招听高的 抄近路
    thinszx
        6
    thinszx  
       23 小时 27 分钟前
    @ruidoBlanco 是从知识蒸馏过来的,这个概念比大模型出现的早得多,而且蒸馏和提炼本身也没啥差啊
    rogerer
        7
    rogerer  
       7 小时 52 分钟前
    @dianso 蒸馏还好,要去训练的模型不是 LLM 的规模。
    ---
    现在大家用 LLM 的结果去蒸馏,蒸馏学习的目的是让更大的模型作为小模型的 supervisor ,这样能让小模型学到大模型的能力,所以直接学输出也是可以的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2207 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:42 · PVG 22:42 · LAX 06:42 · JFK 09:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.