Geeks_Z の Blog Geeks_Z の Blog
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)

Geeks_Z

AI小学生
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)
  • Python

  • MLTutorials

  • 卷积神经网络

  • 循环神经网络

  • Transformer

  • VisionTransformer

  • 扩散模型

  • 计算机视觉

  • PTM

  • MoE

  • LoRAMoE

  • LongTailed

  • 多模态

  • 知识蒸馏

  • PEFT

  • 对比学习

  • 小样本学习

  • 迁移学习

  • 零样本学习

  • 集成学习

  • Mamba

  • PyTorch

    • PyTorch概述

    • Tensors

    • 数据处理

    • 模型

    • 训练

    • 并行计算

    • 可视化

      • 可视化网络结构
      • CNN卷积层可视化
      • TensorBoard
      • 使用wandb可视化训练过程
      • wandb相关参数解释
        • Epoch与Global Step的关系
        • 指标记录方式
          • (1) 训练指标 (train_loss, train_acc)
          • (2) 验证/测试指标 (test_loss, test_acc)
    • 实战

    • timm

    • Pytorch Lightning

    • 数据增强

    • 面经与bug解决

    • 常用代码片段

    • Reference
  • CL

  • CIL

  • 小样本类增量学习FSCIL

  • UCIL

  • 多模态增量学习MMCL

  • LTCIL

  • DIL

  • 论文阅读与写作

  • 分布外检测

  • GPU

  • 深度学习调参指南

  • AINotes
  • PyTorch
  • 可视化
Geeks_Z
2025-03-18
目录

wandb相关参数解释

Epoch与Global Step的关系

  • Epoch:表示完整遍历一次训练数据集的次数。
  • Global Step:表示模型已经处理过的batch数量(累计值)。 例如:
    • 若训练集有10,000样本,batch_size=32,则每个epoch包含 10,000/32 ≈ 313 个batch。
    • 训练30个epoch后,global_step = 30 * 313 ≈ 9390。

指标记录方式

PyTorch Lightning通过以下方式记录指标:

(1) 训练指标 (train_loss, train_acc)

  • train_loss:在training_step()中返回的损失值,默认每个batch记录一次(即每global_step+1时记录)。
    例如:30个epoch × 10 batch/epoch → 300个train_loss记录点。

  • train_acc:需在training_step()或on_train_epoch_end()中手动计算并调用self.log()。

    • 若每个batch记录一次:300个记录点(可能导致噪声)。
    • 若每个epoch记录一次:30个记录点(推荐,需在on_train_epoch_end中计算)。

(2) 验证/测试指标 (test_loss, test_acc)

  • test_loss和test_acc:通常在validation_step()或test_step()中计算,并在on_validation_epoch_end()或on_test_epoch_end()中聚合记录。
    • 默认每个epoch记录一次(30个记录点)。
    • 记录频率由check_val_every_n_epoch参数控制(默认每1个epoch验证一次)。
上次更新: 2025/06/25, 11:25:50
使用wandb可视化训练过程
ResNet源码解读

← 使用wandb可视化训练过程 ResNet源码解读→

最近更新
01
帮助信息查看
06-08
02
常用命令
06-08
03
学习资源
06-07
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Geeks_Z | MIT License
京公网安备 11010802040735号 | 京ICP备2022029989号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式