GPU算力
TODO https://mp.weixin.qq.com/s/9MqBP6OVlS_uq-VVuKc2cg
Tensor Core 算力计算
Tensor Core 是 NVIDIA GPU 从 Volta 架构开始引入的一种特殊计算单元,专门用于加速矩阵乘法和累积运算,从而大大加速模型的训练和推理速度。与 CUDA Core 不同,CUDA Core 在一个时钟周期只能完成 1 次浮点乘加操作,而 Tensor Core 可以在一个时钟周期完成 1 组浮点乘加操作,比如一个小型矩阵的乘加操作

GPU 的计算能力可以使用 FLOPS 表示,FLOPS 是 floating-point operations per second 的缩写,表示“每秒所执行的浮点运算次数”,通常评估计算机的性能以每秒的计算次数(峰值)。
- 一个 MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算,
- 一个 GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算,
- 一个 TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算,(1 太拉)
- 一个 PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算,
- 一个 EFLOPS(exaFLOPS)等于每秒一百京(=10^18)次的浮点运算,
- 一个 ZFLOPS(zettaFLOPS)等于每秒十万京(=10^21)次的浮点运算。
1TOPS:代表的是每秒执行一万亿次运算次数
TFLOPS 和 TOPS 都是描述深度学习设备计算能力的单位
这 2 者的区别在于:FL 即 float 浮点,大多数 NPU(Neural Processing Unit)都是定点运算,通常是用 TOPS 来标称算力。它们之间的转换通常可以用公式:1TFLOPS=2*1TOPS 来计算,但是需要注意 TFLOPS 中有单精度 FP32 和半精度 FP16 的区别,一般默认是 FP16。
Nvidia GPU 的流处理器单元是两个 ALU 单元,每个时钟周期进行两次浮点预算。
FLOPS = 处理器个数 × 处理器主频 × 单个处理器一个时钟周期进行浮点运算次数
以最新的 RTX4080 为例:核心数量是:9728,最大主频为:2.51GHz。那么计算如下:
显卡 FLOPS = 9728 *2.51*2 = 48834.56Gflops=49 TFLOPS
Reference
上次更新: 2025/04/02, 12:03:38