请教大模型微调

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

lora ，全量,dqn,继续预训练这几种微调的使用场景是什么？
functioncalling 这种能力怎么微调出来？
微调对原本能力是不是有很大影响？请大佬们指教

微调

lora

dqn

3 条回复 • 2025-02-20 16:40:31 +08:00

barbery

11 天前

第三点我试过，是很大影响，微调后部分能力增强，部分能力退化，我觉得应该是和微调的数据有关

TimePPT

11 天前

对于 2：
func-call 跟一般监督微调的过程没啥区别，难点在于数据准备：至少要求包含场景、func 定义、预期调取的 func ，预期回复等。
面向业务的 func-call 相对好做，有业务场景，人工构造一些基本就够用。
但通用 func-call 模型就需要有大量的 api 定义和场景测试数据。

但做好其实都不容易，比如函数功能相似，会出现无法精准召回等问题。
还有 input 槽位信息缺失，需要多轮收集，LLM 要知道会话状态等，都需要很多工作要做。

如果没有特殊需要，建议直接调取通用 func-call 能力的 LLM API ，或者市面上有些开源的通用 func-call 模型，自己拿来用，或者再继续微调一下适应自己业务。

rogerer

11 天前

1.全量一般没人调得动，除非你训的是非常小的模型。LoRA 做的事情是在原有模型的旁边搞一条 Pathway ，这样不用动原有模型的参数，也能让模型去适配一些特定的任务，属于是没有办法的办法。
DPN 应该是指强化学习来调整 LLM 相关的技术，这个现在叫 post-training ，用来增强模型的推理能力。

2.function call ，其实应该也能通过微调的技术来做，比如给模型一些模板奖励信号，这样更输出可能会更规整。