DPO 训练后生成的序列重复token #27

JYT86 · 2024-12-16T12:13:13Z

使用gpt2 模型数据集是huggingface 上面的Dahoas/full-hh-rlhf， 10个epochs 后生成的序列很多重复token 训练时输出的val reward margins 时正时负

mst272 · 2024-12-16T16:04:15Z

JYT86 · 2024-12-19T10:44:43Z

@mst272 谢谢我试了将学习率降低同时beta调整为0.9 结果是没有重复token了现在的问题是val loss 和 train loss 都不收敛（一直在震荡）（我注意到evaluate 是用一个子集验证的我认为val dataloader shuffle设置为True 合理一些）

yiyepiaoling0715 · 2024-12-24T16:08:49Z

@mst272 谢谢我试了将学习率降低同时beta调整为0.9 结果是没有重复token了现在的问题是val loss 和 train loss 都不收敛（一直在震荡）（我注意到evaluate 是用一个子集验证的我认为val dataloader shuffle设置为True 合理一些）

现在有解决这个问题么，震荡不收敛的问题

mst272 · 2024-12-25T01:15:46Z

这个可能与数据集以及轮数有关，且以我的实验效果上看即便不收敛模型也是可也在相关指标上有提升。

lingq1 · 2024-12-25T01:58:23Z

@mst272 谢谢我试了将学习率降低同时beta调整为0.9 结果是没有重复token了现在的问题是val loss 和 train loss 都不收敛（一直在震荡）（我注意到evaluate 是用一个子集验证的我认为val dataloader shuffle设置为True 合理一些）

重复问题我试了下， prompt加个不要重复就不会重复了

Provide feedback