Geeks_Z の Blog Geeks_Z の Blog
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)

Geeks_Z

AI小学生
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)
  • Python

  • MLTutorials

  • 卷积神经网络

  • 循环神经网络

  • Transformer

  • VisionTransformer

  • 扩散模型

  • 计算机视觉

  • PTM

  • MoE

  • LoRAMoE

  • LongTailed

  • 多模态

  • 知识蒸馏

  • PEFT

  • 对比学习

  • 小样本学习

  • 迁移学习

  • 零样本学习

  • 集成学习

  • Mamba

  • PyTorch

  • CL

  • CIL

  • 小样本类增量学习FSCIL

  • UCIL

  • 多模态增量学习MMCL

  • LTCIL

  • DIL

  • 论文阅读与写作

  • 分布外检测

  • GPU

    • 常用命令
    • GPU相关概念
    • GPU算力
      • Tensor Core 算力计算
      • Reference
    • GPU显存
    • GPU通信
    • GPU和显存分析
    • 内存与显存_CPU与GPU_GPU与CUDA
    • 执行脚本
    • 英伟达AI芯片科普
  • 深度学习调参指南

  • AINotes
  • GPU
Geeks_Z
2024-08-15
目录

GPU算力

TODO https://mp.weixin.qq.com/s/9MqBP6OVlS_uq-VVuKc2cg


Tensor Core 算力计算

Tensor Core 是 NVIDIA GPU 从 Volta 架构开始引入的一种特殊计算单元,专门用于加速矩阵乘法和累积运算,从而大大加速模型的训练和推理速度。与 CUDA Core 不同,CUDA Core 在一个时钟周期只能完成 1 次浮点乘加操作,而 Tensor Core 可以在一个时钟周期完成 1 组浮点乘加操作,比如一个小型矩阵的乘加操作 D=A∗B+C。

GPU 的计算能力可以使用 FLOPS 表示,FLOPS 是 floating-point operations per second 的缩写,表示“每秒所执行的浮点运算次数”,通常评估计算机的性能以每秒的计算次数(峰值)。

  • 一个 MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算,
  • 一个 GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算,
  • 一个 TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算,(1 太拉)
  • 一个 PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算,
  • 一个 EFLOPS(exaFLOPS)等于每秒一百京(=10^18)次的浮点运算,
  • 一个 ZFLOPS(zettaFLOPS)等于每秒十万京(=10^21)次的浮点运算。

1TOPS:代表的是每秒执行一万亿次运算次数

TFLOPS 和 TOPS 都是描述深度学习设备计算能力的单位

这 2 者的区别在于:FL 即 float 浮点,大多数 NPU(Neural Processing Unit)都是定点运算,通常是用 TOPS 来标称算力。它们之间的转换通常可以用公式:1TFLOPS=2*1TOPS 来计算,但是需要注意 TFLOPS 中有单精度 FP32 和半精度 FP16 的区别,一般默认是 FP16。

Nvidia GPU 的流处理器单元是两个 ALU 单元,每个时钟周期进行两次浮点预算。

FLOPS = 处理器个数 × 处理器主频 × 单个处理器一个时钟周期进行浮点运算次数

以最新的 RTX4080 为例:核心数量是:9728,最大主频为:2.51GHz。那么计算如下:

显卡 FLOPS = 9728 *2.51*2 = 48834.56Gflops=49 TFLOPS

Reference

  • 什么是 GPU 的算力? (opens new window)
  • GPU 关键指标汇总:算力、显存、通信 (opens new window)
上次更新: 2025/06/25, 11:25:50
GPU相关概念
GPU显存

← GPU相关概念 GPU显存→

最近更新
01
帮助信息查看
06-08
02
常用命令
06-08
03
学习资源
06-07
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Geeks_Z | MIT License
京公网安备 11010802040735号 | 京ICP备2022029989号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式