欢迎来到通信人在线![用户登录] [免费注册]

英伟达(NVIDIA) H100 Tensor Core GPU 性能详解

浏览:1042  来源:通信人在线  日期:2025-03-03

●文章摘要:

人工智能(AI)、高性能计算(HPC)以及数据分析的复杂性呈指数级增长,这要求科学家和工程师使用最先进的计算平台。NVIDIA Hopper GPU 架构能够以低延迟提供最高性能计算,并集成了用于数据中心规模计算的全套功能。由 NVIDIA Hopper GPU 架构驱动的 NVIDIA® H100 Tensor Core GPU NVIDIA 的数据中心平台带来了加速计算性能的新一次巨大飞跃。H100 以安全的方式加速从小型企业工作负载到百亿亿次高性能计算(exascale HPC)再到万亿参数人工智能模型等各种工作负载。H100采用台积电专为英伟达定制的 4N 工艺制造,包含 800 亿个晶体管,并且具备众多架构上的革新,是迄今为止制造出来的最先进的芯片。该技术文档摘编自英伟达(NVIDIA)相关技术人员对Hopper架构H100 GPU技术性能的详解。

欲更多了解英伟达(NVIDIA)相关GPU技术介绍的请进入

 

关键词

NVIDIA H100Tensor CoreGPU;性能详解

 

作者简介:

Michael Andersch Michael NVIDIA 的首席 GPU 架构师和高级架构经理。

Greg Palmer GregNVIDIA GPU 架构小组的杰出工程师。

Ronny Krashinsky RonnyNVIDIA 杰出工程师,从事 GPU 架构设计工作已有 十多年。

还有:Nick Stam NickVishal Mehta VishalGonzalo Brito GonzaloSridhar Ramaswamy Sridhar等。

 

文章来源:

摘自NVIDIA网站20223月)

 

●文章目录:

一、绪论

二、NVIDIA H100 GPU 主要功能概述

三、NVIDIA H 100 GPU 纵深架构

3.1 概述;3.2 GH 100 GPU3.3 具有 PCIe Gen 5 板外形的 NVIDIA H100 GPU3.4 制造工艺

四、H 100 SM 架构

4.1 概述;4.2 H 100 SM 主要功能摘要

五、H 100 Tensor Core 架构

六、NVIDIA Hopper FP8 数据格式

七、用于加速动态编程的新 DPX 指令

八、H100 计算性能摘要

九、H 100 GPU 层次结构和异步改进

9.1 线程块集群;9.2 分布式共享内存;9.3 异步执行;9.4 Tensor 内存加速器;9.5 异步事务屏障

十、H100 HBM L2 高速缓存架构

10.1 H100 HBM3 HBM2e DRAM 子系统;10.2 H100 L2 缓存

十一、其它

11.1 Transformer 引擎;11.2 第四代 NVLink NVLink 网络;11.3 第三代 NVSwitch11.4 新的 NVLink 交换系统;11.5 5 PCIe

 

  ●文章内容:

百度云服务器
© 2004-2025 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站