学习率
- 学习率最好是从高到低2倍速度递减一般从0.01开始。
- 如果使用微调,则learning rate设置为0.0001较好。learning rate设置上有很多trick,包括cosing learning rate等。
最好的学习率衰减方案是什么
- 这是一个开放性问题。目前尚不清楚如何构建一组严格的实验来自信地回答最佳的LR 衰减方案是什么。
- 虽然我们不知道最好的方案是什么,但我们相信尝试一些(非恒定的)方案很重要并且调整它很重要。
- 在优化过程中,不同的学习率在不同的时间效果最好。有某种衰减方案可以使模型更有可能达到良好的学习率。
我应该使用哪种学习率衰减方案作为默认值?
- 我们的偏好是linear decay或cosine decay,其他一些方案可能也不错。
为什么有些论文有复杂的学习率衰减方案?
- 具有复杂分段学习率 (LR) 衰减方案的论文并不少见。
- 读者常常想知道作者是如何得出如此复杂的研究结果的。
- 许多复杂的 LR 衰减方案是根据验证集性能以临时方式调整衰减方案的结果:
- 使用一些简单的 LR 衰减(或恒定学习率)开始执行单次训练。
- 继续训练,直到性能提升似乎停滞为止。如果发生这种情况,请暂停训练。从此时开始,使用可能更陡峭的 LR 衰减方案(或更小的恒定学习率)恢复它。 重复此过程,直到会议/发布截止日期。
- 随意复制生成的衰减方案通常不是一个好主意,因为最佳的特定衰减方案将对许多其他超参数选择敏感。
- 最好复制生成衰减方案的算法,尽管在人为判断生成的衰减方案时这几乎不可能。
- 如果这种类型的验证错误敏感计划可以完全自动化,则可以很好地使用,但作为验证错误函数的人在循环计划是脆弱的并且不容易重现,因此我们建议避免使用它们。
- 在发布使用此类衰减方案的结果之前,请尽量确保其可重现性。
上次更新: 2025/04/02, 12:03:38