大模型了解的比较模糊,主流的大模型平台对话框底下的踩和赞应该就是 RLHF 的前置步骤,即数据的收集,收集了之后一般是怎么影响到模型的呢,是不是还要隔一段时间将数据处理成指令数据集的格式,进行一轮微调?
1
laimailai 198 天前
隔一段时间将数据处理成指令数据集的格式,进行一轮微调。
------ 正解!还需要进行一轮数据清洗过滤。 |
2
weishao666 OP @laimailai 谢谢!
|