英伟达(NVIDIA)数据中心用GPU是世界上采用最广泛的加速计算解决方案,部署于较大超级计算中心和企业的数据中心。无论是希望解决深度学习(DL)和 人工智能(AI)、高性能计算(HPC)、图形方面的业务问题,还是在数据中心或边缘解决虚拟化问题,NVIDIA GPU 都能提供理想的解决方案。尤其是现在可以使用数量更少、功能更强大的服务器实现突破性的性能,同时更快地获得解决并降低成本。
一、概述
我们知道,英伟达(NVIDIA)的图形处理器(GPU,Graphic Processing Unit)在迭代时,陆续采用了不同的架构,在前期几代架构中的处理核心均采用的是CUDA(计算统一设备架构)核心。从2017年发布的Volta(伏特)架构时,其处理核心开始采用了Tensor Core(称为张量计算核心),在后续的历代GPU架构更新时均采用了Tensor Core,且为Tensor Core的升级版本。下表1示出了英伟达采用Tensor Core的GPU不同架构情况,包括其关键特征和相应产品型号等。
表 1:英伟达Tensor Core GPU的不同架构情况
由表可知,2017 年英伟达GPU提出的 Volta 架构,首次引入了Tensor Core ,用于执行融合乘法加法(FMA)的方式来高效地处理计算任务,标志着第1代 Tensor Core 核心的诞生。而后Tensor Core在英伟达GPU的后续Turing、Ampere、Hopper和Blackwell架构中均有配备,其中Blackwell架构中的Tensor Core已演进为第5代Tensor Core。英伟达 Tensor Core 技术助力人工智能(AI)实现了大幅加速,将训练时间从数周缩短到几小时,显著加快了推理速度。新的处理核心Tensor Core,可实现混合精度计算,并能根据精度的降低动态调整算力,在保持准确性的同时提高吞吐量;新一代 Tensor Core 扩大了这种加速的应用范围,覆盖到AI和高性能计算(HPC)领域的各种工作负载;Tensor Core 向所有工作负载提供了新功能,将一种革命性的新精度Tensor Float 32(TF32)下的 AI 训练速度加快 10 倍,并将 FP64 下的HPC速度加快 2.5 倍。相较于 CUDA Core,Tensor Core 能够在每个时钟周期内执行更多的运算,特别是它可以高效地完成矩阵乘法和累加操作两种操作,是深度学习(DL)中最频繁和计算密集的任务之一。下述将对英伟达的采用Tensor Core核心算法的几款GPU产品技术参数做一介绍,这些GPU产品主要部署用于数据中心场景。
二、Turing架构的T4型GPU(Tensor Core 2.0)
英伟达 T4 型企业级 GPU 为全球最受信赖的主流服务器提供强大动力,轻松融入标准数据中心架构。其低矮的外形设计,仅需 70 W功耗,由 NVIDIA Turing架构Tensor Core驱动,为包括机器学习、深度学习和虚拟桌面在内的众多现代应用提供革命性的多精度性能加速。这款先进的 GPU 采用节能的 70 瓦、小型 PCle 外形规格封装(下图2-1),专为企业数据中心和云环境实现最大效用而优化。下表2-1给出了T4型 GPU的相关技术参数;下表2-2给出了T4对于驱动数据中心加速的技术说明;下图2-2展示了T4与CPU相比的接口性能和训练性能。
图 2-1:T4 GPU的外形图
表 2-1:T4 GPU的相关技术参数
表 2-2:T4 GPU对于驱动数据中心加速的说明
图 2-2:T4 GPU与CPU相比的接口性能和训练性能
三、Ampere架构的A100型GPU(Tensor Core 3.0)
英伟达 A100 Tensor Core GPU 在各个规模上都能实现前所未有的加速,为AI、数据分析和高性能计算(HPC)应用提供全球性能最强劲的弹性数据中心动力支持。作为英伟达数据中心平台的核心引擎,A100 比之前一代的架构 Volta性能提升了多达 20 倍。通过多实例(MIG,Multi-Instance GPU)技术,A100 能够高效地进行扩展或被划分为七个独立的 GPU 实例,为弹性数据中心提供一个统一的平台,使其能够动态适应不断变化的工作负载需求。
英伟达 A100 Tensor Core 技术支持广泛的数学精度,为每项工作负载提供一个单独的加速器。最新一代的 A100 80GB 版本将 GPU 内存翻倍,并推出了2TB/s 的全球最快内存带宽,从而加快了最大模型和最庞大数据集的解决方案时间。A100 是完整的英伟达数据中心解决方案的一部分,该解决方案涵盖了硬件、网络、软件、库以及来自 NVIDIA NGC 目录的优化的AI模型和应用程序的构建模块。它代表着面向数据中心的最强大的端到端AI和HPC平台,使研究人员能够交付真实世界的成果,并大规模地将解决方案部署到生产环境中。下表3-1给出了A100 80GB(包括PCIe和SXM4两种形状因子)的相关技术参数;下表3-2描述了A100 GPU的几点突破性创新;下图3展示了A100 GPU跨工作负载的卓越性能。
表 3-1:A100 80GB GPU(包括PCIe和SXM4两种形状因子)的相关技术参数
表 3-2:相关A100 GPU的突破性创新描述
图 3:A100 GPU跨工作负载的卓越性能展示
A100 Tensor Core GPU 是英伟达数据中心平台的旗舰产品,专为深度学习、HPC和数据分析而设计。该平台可加速超过 2000 个应用程序,包括每一个主要的深度学习框架。A100 可以在从台式机到服务器再到云服务等各种设备上使用,既带来了显著的性能提升,也提供了节省成本的机会。
四、Hopper架构的H100和H200型GPU(Tensor Core 4.0)
1、H100 型Tensor Core GPU
H100 Tensor Core GPU 是英伟达的第9代数据中心用 GPU,旨在为大规模AI和HPC提供比上一代 A100 型GPU 高一个数量级的性能飞跃。H100 继承了 A100 的主要设计重点,以改善 AI 和 HPC 工作负载的强大扩展,并显著提高架构效率。下表4-1给出了H100(包括NVL和SXM两种形状因子)的相关技术参数;其它性能详见下附件4。
表 4-1:H100( GPU包括NVL和SXM两种形状因子)的相关技术参数
附件 4:H100 型GPU更多性能介绍
欲具体了解H100 Tensor Core GPU详解的请进入。
2、H200 型Tensor Core GPU
H200 Tensor Core GPU同样基于强大的Hopper 架构,针对更大的 AI 和 HPC 工作负载进行了增强。下表4-2-1给出了H200(包括PCIe和SXM两种形状因子)的相关技术参数,与H100相比,两者最主要的差异表现在GPU内存和GPU内存带宽两个参数上。下表4-2-2展示了H200突出性能的表现。
表 4-2-1:H200 GPU(包括NVL和SXM两种形状因子)的相关技术参数
表 4-2-2:H200 GPU突出性能描述
五、Blackwell架构的GPU(Tensor Core 5.0)
1、概述
2024年3月英伟达推出了新一代Blackwell架构的GPU,该架构以美国数学家和统计学家大卫·布莱克威尔(David H. Blackwell)的名字来命名。Blackwell架构的GPU引入了第5代Tensor Core(首次添加了对FP4浮点运算精度的支持)、第2代Transformer引擎、第5代NVLink和 NVLink Switch等技术,称为是开创了推动生成式AI与加速计算的新时代(声称可以支持具有数万亿参数的模型)。Blackwell 架构GPU是全球最大的 GPU,专为处理数据中心规模的生成式AI工作流程而打造,其能耗效率比之前的Hopper 架构GPU 产品系列高出多达 25 倍。Blackwell架构的GPU包括新一代超级芯片 Grace Blackwell GB200 以及新一代高性能 HGX 系统 HGX B200 和 HGX B100。下附件5是Blackwell架构的详细技术介绍。
附件 5:NVIDIA Blackwell架构的详细技术介绍
2、GB200 超级芯片
GB200 Grace Blackwell 超级芯片是由两个高性能的 Blackwell Tensor Core GPU及一个 Grace CPU 构成,使用英伟达NVLink®-C2C 互连技术,将这两块 GPU 提供了每秒 900 千兆字节(GB/s)的双向带宽,并使用NVIDIA 高带宽接口(NV-HBI)进行连接和统一,从而提供了一个完全协调一致、统一的 GPU。下表5-2给出了GB200 Grace Blackwell 超级芯片的技术参数。
表 5-2:GB200 Grace Blackwell 超级芯片的技术参数
3、GB200 NVL72集群
英伟达 GB200 NVL72 集群采用机架级设计,将 36 个 GB200 超级芯片(36 个 Grace CPU 和 72 个 Blackwell GPU)连接在一起。GB200 Grace Blackwell 超级芯片是 NVIDIA GB200 NVL72 的关键组件。GB200 NVL72 是一款液冷式、机架级的 72-GPU NVLink 域,能够作为一个巨大的 GPU 来使用,其实时万亿参数大语言模型(LLM)推理速度比上一代(即HGX H100)快 30 倍。下表5-3给出了GB200 NVL72集群的系统技术参数。GB200 NVL72 引入了前沿技术和第二代 Transformer 引擎,从而支持 FP4 AI。这一进步得益于新一代Tensor Core 5.0,它引入了新的微缩放格式,实现了高精度和更高的吞吐量。
表 5-3:GB200 NVL72集群的系统技术参数
4、HGX B200 和 HGX B100
英伟达的 Blackwell HGX B200 和 HGX B100 都具备同样具有开创性的革新成果,适用于生成式AI、数据分析以及HPC领域,并且将 HGX 扩展至包含 Blackwell GPU 的产品系列中。下表5-4给出了HGX B200 和 HGX B100的系统技术参数。
表 5-4:HGX B200 和 HGX B100的系统技术参数
HGX B200:基于8核 Blackwell GPU 基板的 Blackwell x86 平台,提供 144 万亿次浮点运算AI性能。HGX B200 在 x86 扩展平台和基础设施方面实现了最佳性能(比 HGX H100 高 15 倍)和总体拥有成本(比 HGX H100 高 12 倍)。每个 GPU 都可配置为最高 1000 瓦特功耗。
HGX B100:基于8核 Blackwell GPU 基板的 Blackwell x86 平台,提供 112 万亿次浮点运算AI性能。HGX B100 是一款专为实现最快部署时间而设计的顶级加速型 x86 扩展平台,与现有的 HGX H100 基础设施兼容,可实现即插即用替换。每个 GPU 的功耗最高可达 700 瓦。
欲进一步了解人工智能(AI)系统介绍的请进入。
1.81MB