本想使用多卡训练,训练结果应该会更加好,但是我发现使用三张 3090 训练,网络模型不收敛, 这是因为学习率的原因吗?
1
Ricardoo 2023-01-31 19:21:22 +08:00
正常。
使用多卡后一般需要调小学习率,也有可能不需要调,比较玄学。 |
2
clemente0620 2023-01-31 19:34:25 +08:00
按卡倍数 降低 学习率
|
3
leimao 2023-01-31 23:46:40 +08:00 via iPad
DDP 本质就是增加了 Batch Size 。Batch Size 变了,模型可能需要就 Training Recipe 进行微调。
|
4
hsfzxjy 2023-02-01 00:28:11 +08:00 via Android
调学习率,以及注意 BN
|
5
yiyi1010 OP 对 DDP 增加了 batch size ,不是应该按照卡倍数 增加学习率吗?
|
10
yiyi1010 OP 看一般是需要线性提升 leanring rate
|