英伟达AI芯片科普
1.英伟达 GPU 架构演进史
第一代 AI 加速卡叫 Volta ,是英伟达第一次为 AI 运算专门设计的张量运算(Tensor Core)架构。
第二代张量计算架构叫图灵(Turing),代表显卡 T4。
第三代张量运算架构安培(Ampere),终于来到我们比较熟悉的 A100 系列显卡了。
在芯片工艺升级的加持下,单卡 SM 翻倍到了 108 个,SM 内的核心数和 V100 相同,但是通过计算单元电路升级,核心每一个周期可以完成 256 个浮点数乘累加,是老架构的两倍。加入了更符合当时深度学习需要的 8 位浮点(FP8)运算模式,一个 16 位浮点核心可以当作 2 个 8 位浮点核心计算,算力再翻倍。主频稍有下降,为 1.41GHz。因此最后,A100 显卡的算力达到了 V100 的近 5 倍,为 10882561.41GHz2 =624 TFLOPS (FP8)。
第四代架构 Hopper,也就是英伟达 2023 年发布、OpenAI 大语言模型训练已经采用、且因算力问题被禁运的 H100 系列显卡。
该显卡的 SM 数(132 个)相较前代并未大幅提升,但是因为全新的 Tensor Core 架构和异步内存设计,单个 SM 核心一个周期可以完成的 FP16 乘累加数再翻一倍,达到 512 次。主频稍微提高到 1.83GHz,最终单卡算力达成惊人的 1978 Tera FLOPS(FP8),也即首次来到了 PFLOPS(1.97 Peta FLOPS)领域。
第五代架构 Blackwell,在这个算力天梯上又取得了什么样的进展呢?根据公开的数据,如果采用全新的 FP4 数据单元,GB200 在将能在推理任务中达到 20 Peta FLOPS 算力。将其还原回 FP8,应该也有惊人的 10 PFLOPS,这相对 H100 提升将达到 5 倍左右。
公开数据显示,Blackwell 的处理器主频为 2.1GHz。假设架构没有大幅更新,这意味着 Blackwell 将有 600 个 SM,是 H100 的接近 4 倍。Blackwell 有两个 Die,那么单 Die 显卡的 SM 数也达到了 H100 的 2 倍。
可以说,每一代架构的升级,单个 GPU 算力实现数倍增长。这里,我们将从 Volta 架构至今的算力天梯进展图列表如下,方便大家查阅:

2. A100 VS A800,H100 VS H800
为什么有 A100 还要 A800 呢?先说说背景
2022 年 10 月,美国出台了对华半导体出口限制新规,其中就包括了对于高性能计算芯片对中国大陆的出口限制。并且以 NVIDIA 的 A100 芯片的性能指标作为限制标准;即同时满足以下两个条件的即为受管制的高性能计算芯片:
(1)芯片的 I/O 带宽传输速率大于或等于 600 Gbyte/s;
(2)“数字处理单元 原始计算单元”每次操作的比特长度乘以 TOPS 计算出的的算力之和大于或等于 4800TOPS。
这也使得 NVIDIA A100/H100 系列、AMD MI200/300 系列 AI 芯片无法对华出口。

为了在遵守美国限制规则的前提下,同时满足中国客户的需求,英伟达推出 A100 的替代产品 A800。从官方公布的参数来看,A800 主要是将 NVLink 的传输速率由 A100 的 600GB/s 降至了 400GB/s,其他参数与 A100 基本一致。
2023 年,英伟达发布了新一代基于 4nm 工艺,拥有 800 亿个晶体管、18432 个核心的 H100 GPU。同样,NVIDIA 也推出了针对中国市场的特供版 H800。

实际上,A800 在互联带宽,即 N 维链和链路部分做了调整,从 A100 的 600G/s 降到了 400G/s。但是在其他方面,如双精、单精、半精等在 AI 算力方面并没有变化。
相对而言,H800 则做了较大的调整。它不仅在链路方面进行了调整,保持了 8 条的 NVlink,双向互联带宽仍为 400G,并且对双精度算力进行了几乎归零的处理。这对 HPC 领域来说非常关键,因为 FP64 的双精度算力直接减少到了一,也就是说几乎不让你使用了。
接下来,我们来看一下阉割后对哪些业务有很大的影响。
大模型战场: A800 阉割后降低了大模型的训练的效率, A800 SXMM 主要是 GPU 卡之间的数据传输效率降低,带宽降低 33%。以 GPT-3 为例, 规模达到 1750 亿, 需要多张 GPU 组合训练, 如果带宽不足则使性能下降约 4 成 (出现 GPU 算力高需要等待数据的情况), 考虑到 A 800 和 H 800 性价比, 国内用户还是倾向于 A 800。由于阉割后的 A800 和 H800 在训练效率上有所下降,因为他们需要在卡之间交互训练过程中的一些数据,所以他们的传输速率的降低导致了他们的效率的降低。
HPC 领域: A800 和 A100 在双精方面算力一致, 所以在高性能科学计算领域没有影响, 但是可恶的是 H800 直接将双精算力直接降到了 1 TFLOPS, 直接不让用了;这对超算领域的影响还是很大的。
所以影响是显而易见的,在 AIGC 、HPC 领域中,国内的一些企业可能会被国外的企业拉开一定的差距。这是可预见到的,所以说在一些情况下,如果我们要计算能力要达到一定的性能,它的投入可能会更高。此外,我们只能从国外借壳,通过成立分公司的方式,把大模型训练的任务放在国外,我们只是把训练好的成果放在国内去用就可以了。但是,这只是一种临时性的方案,特别是面临数据出境风险。