V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Suger828
V2EX  ›  程序员

请教大模型微调

  •  
  •   Suger828 · 11 天前 · 1081 次点击
    1. lora ,全量,dqn,继续预训练这几种微调的使用场景是什么?
    2. functioncalling 这种能力怎么微调出来?
    3. 微调对原本能力是不是有很大影响? 请大佬们指教
    3 条回复    2025-02-20 16:40:31 +08:00
    barbery
        1
    barbery  
       11 天前
    第三点我试过,是很大影响,微调后部分能力增强,部分能力退化,我觉得应该是和微调的数据有关
    TimePPT
        2
    TimePPT  
       11 天前
    对于 2:
    func-call 跟一般监督微调的过程没啥区别,难点在于数据准备:至少要求包含场景、func 定义、预期调取的 func ,预期回复等。
    面向业务的 func-call 相对好做,有业务场景,人工构造一些基本就够用。
    但通用 func-call 模型就需要有大量的 api 定义和场景测试数据。

    但做好其实都不容易,比如函数功能相似,会出现无法精准召回等问题。
    还有 input 槽位信息缺失,需要多轮收集,LLM 要知道会话状态等,都需要很多工作要做。

    如果没有特殊需要,建议直接调取通用 func-call 能力的 LLM API ,或者市面上有些开源的通用 func-call 模型,自己拿来用,或者再继续微调一下适应自己业务。
    rogerer
        3
    rogerer  
       11 天前
    1.全量一般没人调得动,除非你训的是非常小的模型。LoRA 做的事情是在原有模型的旁边搞一条 Pathway ,这样不用动原有模型的参数,也能让模型去适配一些特定的任务,属于是没有办法的办法。
    DPN 应该是指强化学习来调整 LLM 相关的技术,这个现在叫 post-training ,用来增强模型的推理能力。

    2.function call ,其实应该也能通过微调的技术来做,比如给模型一些模板奖励信号,这样更输出可能会更规整。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4789 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 119ms · UTC 09:54 · PVG 17:54 · LAX 01:54 · JFK 04:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.