学习率

学习率最好是从高到低2倍速度递减一般从0.01开始。
如果使用微调，则learning rate设置为0.0001较好。learning rate设置上有很多trick，包括cosing learning rate等。

最好的学习率衰减方案是什么

这是一个开放性问题。目前尚不清楚如何构建一组严格的实验来自信地回答最佳的LR 衰减方案是什么。
虽然我们不知道最好的方案是什么，但我们相信尝试一些（非恒定的）方案很重要并且调整它很重要。
在优化过程中，不同的学习率在不同的时间效果最好。有某种衰减方案可以使模型更有可能达到良好的学习率。

我应该使用哪种学习率衰减方案作为默认值？

我们的偏好是linear decay或cosine decay，其他一些方案可能也不错。

为什么有些论文有复杂的学习率衰减方案？

具有复杂分段学习率 (LR) 衰减方案的论文并不少见。
读者常常想知道作者是如何得出如此复杂的研究结果的。
许多复杂的 LR 衰减方案是根据验证集性能以临时方式调整衰减方案的结果：
1. 使用一些简单的 LR 衰减（或恒定学习率）开始执行单次训练。
2. 继续训练，直到性能提升似乎停滞为止。如果发生这种情况，请暂停训练。从此时开始，使用可能更陡峭的 LR 衰减方案（或更小的恒定学习率）恢复它。重复此过程，直到会议/发布截止日期。
随意复制生成的衰减方案通常不是一个好主意，因为最佳的特定衰减方案将对许多其他超参数选择敏感。
最好复制生成衰减方案的算法，尽管在人为判断生成的衰减方案时这几乎不可能。
如果这种类型的验证错误敏感计划可以完全自动化，则可以很好地使用，但作为验证错误函数的人在循环计划是脆弱的并且不容易重现，因此我们建议避免使用它们。
在发布使用此类衰减方案的结果之前，请尽量确保其可重现性。

上次更新: 2025/06/25, 11:25:50

← 损失函数 Batch Size→

01
帮助信息查看 06-08

02
常用命令 06-08

03
学习资源 06-07

更多文章>