Geeks_Z の Blog Geeks_Z の Blog
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)

Geeks_Z

AI小学生
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)
  • Python

  • MLTutorials

  • 卷积神经网络

  • 循环神经网络

  • Transformer

  • VisionTransformer

  • 扩散模型

  • 计算机视觉

  • PTM

  • MoE

  • LoRAMoE

  • LongTailed

  • 多模态

  • 知识蒸馏

  • PEFT

  • 对比学习

  • 小样本学习

  • 迁移学习

  • 零样本学习

  • 集成学习

  • Mamba

  • PyTorch

  • CL

  • CIL

  • 小样本类增量学习FSCIL

  • UCIL

  • 多模态增量学习MMCL

  • LTCIL

  • DIL

  • 论文阅读与写作

  • 分布外检测

  • GPU

  • 深度学习调参指南

    • 深度学习调参指南
    • 模型
    • 数据
    • 损失函数
    • 学习率
      • Batch Size
      • 优化器
      • 初始化
      • Epoch
      • 激活函数
    • AINotes
    • 深度学习调参指南
    Geeks_Z
    2025-01-05
    目录

    学习率

    • 学习率最好是从高到低2倍速度递减一般从0.01开始。
    • 如果使用微调,则learning rate设置为0.0001较好。learning rate设置上有很多trick,包括cosing learning rate等。

    最好的学习率衰减方案是什么

    • 这是一个开放性问题。目前尚不清楚如何构建一组严格的实验来自信地回答最佳的LR 衰减方案是什么。
    • 虽然我们不知道最好的方案是什么,但我们相信尝试一些(非恒定的)方案很重要并且调整它很重要。
    • 在优化过程中,不同的学习率在不同的时间效果最好。有某种衰减方案可以使模型更有可能达到良好的学习率。

    我应该使用哪种学习率衰减方案作为默认值?

    • 我们的偏好是linear decay或cosine decay,其他一些方案可能也不错。

    为什么有些论文有复杂的学习率衰减方案?

    • 具有复杂分段学习率 (LR) 衰减方案的论文并不少见。
    • 读者常常想知道作者是如何得出如此复杂的研究结果的。
    • 许多复杂的 LR 衰减方案是根据验证集性能以临时方式调整衰减方案的结果:
      1. 使用一些简单的 LR 衰减(或恒定学习率)开始执行单次训练。
      2. 继续训练,直到性能提升似乎停滞为止。如果发生这种情况,请暂停训练。从此时开始,使用可能更陡峭的 LR 衰减方案(或更小的恒定学习率)恢复它。 重复此过程,直到会议/发布截止日期。
    • 随意复制生成的衰减方案通常不是一个好主意,因为最佳的特定衰减方案将对许多其他超参数选择敏感。
    • 最好复制生成衰减方案的算法,尽管在人为判断生成的衰减方案时这几乎不可能。
    • 如果这种类型的验证错误敏感计划可以完全自动化,则可以很好地使用,但作为验证错误函数的人在循环计划是脆弱的并且不容易重现,因此我们建议避免使用它们。
    • 在发布使用此类衰减方案的结果之前,请尽量确保其可重现性。
    上次更新: 2025/06/25, 11:25:50
    损失函数
    Batch Size

    ← 损失函数 Batch Size→

    最近更新
    01
    帮助信息查看
    06-08
    02
    常用命令
    06-08
    03
    学习资源
    06-07
    更多文章>
    Theme by Vdoing | Copyright © 2022-2025 Geeks_Z | MIT License
    京公网安备 11010802040735号 | 京ICP备2022029989号-1
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式