●文章摘要:
人工智能(AI)、高性能计算(HPC)以及数据分析的复杂性呈指数级增长,这要求科学家和工程师使用最先进的计算平台。NVIDIA Hopper GPU 架构能够以低延迟提供最高性能计算,并集成了用于数据中心规模计算的全套功能。由 NVIDIA Hopper GPU 架构驱动的 NVIDIA® H100 Tensor Core GPU 为 NVIDIA 的数据中心平台带来了加速计算性能的新一次巨大飞跃。H100 以安全的方式加速从小型企业工作负载到百亿亿次高性能计算(exascale HPC)再到万亿参数人工智能模型等各种工作负载。H100采用台积电专为英伟达定制的 4N 工艺制造,包含 800 亿个晶体管,并且具备众多架构上的革新,是迄今为止制造出来的最先进的芯片。该技术文档摘编自英伟达(NVIDIA)相关技术人员对Hopper架构H100 GPU技术性能的详解。
欲更多了解英伟达(NVIDIA)相关GPU技术介绍的请进入。
●关键词:
NVIDIA; H100;Tensor Core;GPU;性能详解
●作者简介:
Michael Andersch Michael: NVIDIA 的首席 GPU 架构师和高级架构经理。
Greg Palmer Greg:NVIDIA GPU 架构小组的杰出工程师。
Ronny Krashinsky Ronny:NVIDIA 杰出工程师,从事 GPU 架构设计工作已有 十多年。
还有:Nick Stam Nick、Vishal Mehta Vishal、Gonzalo Brito Gonzalo和Sridhar Ramaswamy Sridhar等。
●文章来源:
摘自NVIDIA网站(2022年3月)
●文章目录:
一、绪论
二、NVIDIA H100 GPU 主要功能概述
三、NVIDIA H 100 GPU 纵深架构
3.1 概述;3.2 GH 100 GPU;3.3 具有 PCIe Gen 5 板外形的 NVIDIA H100 GPU;3.4 制造工艺
四、H 100 SM 架构
4.1 概述;4.2 H 100 SM 主要功能摘要
五、H 100 Tensor Core 架构
六、NVIDIA Hopper FP8 数据格式
七、用于加速动态编程的新 DPX 指令
八、H100 计算性能摘要
九、H 100 GPU 层次结构和异步改进
9.1 线程块集群;9.2 分布式共享内存;9.3 异步执行;9.4 Tensor 内存加速器;9.5 异步事务屏障
十、H100 HBM 和 L2 高速缓存架构
10.1 H100 HBM3 和 HBM2e DRAM 子系统;10.2 H100 L2 缓存
十一、其它
11.1 Transformer 引擎;11.2 第四代 NVLink 和 NVLink 网络;11.3 第三代 NVSwitch;11.4 新的 NVLink 交换系统;11.5 第 5 代PCIe
●文章内容: