NVIDIA Hopper 架构

全球 AI 基础设施引擎实现数量级的性能飞跃

为新一代工作负载打造的加速计算平台。

详细了解通过 NVIDIA Hopper^™ 架构为加速计算实现新的巨大飞跃。从小型企业到百亿亿次级高性能计算 (HPC) 和万亿参数的 AI，Hopper 架构可安全扩展每个数据中心的各种工作负载，让出色的创新者能够以人类历史上更快的速度完成工作。

准备好迎接企业 AI 了吗？

企业采用 AI 现已成为主流，企业组织需要端到端的 AI 就绪型基础设施，加快自身迈向新时代的步伐。

适用于主流服务器的 NVIDIA H100 Tensor Core GPU 随附 NVIDIA AI Enterprise 软件套件，能够以强大的性能简化 AI 的采用。

激活适用于 H100 的 NVIDIA AI Enterprise

探索技术突破

Hopper 采用先进的台积电 4N 工艺制造，拥有超过 800 亿个晶体管，采用五项突破性创新技术为 NVIDIA H200 和 H100 Tensor Core GPU 提供动力支持。在这些创新技术的加持下，新一代 Hopper 与上一代相比，在生成式 AI 训练和推理方面实现了惊人的速度提升。

Transformer 引擎

NVIDIA Hopper 架构通过 Transformer 引擎推进 Tensor Core 技术的发展，旨在加�� AI 模型训练。Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度，以大幅加速 Transformer 模型的 AI 计算。与上一代相比，Hopper 还将 TF32、FP64、FP16 和 INT8 精度的每秒浮点运算 (FLOPS) 提高了 3 倍。Hopper Tensor Core 与 Transformer 引擎和第四代 NVIDIA^® NVLink^® 相结合，可使 HPC 和 AI 工作负载的加速实现数量级提升。

详细了解 Hopper Transformer 引擎

NVLink、NVSwitch 和 NVLink Switch 系统

为了满足业务活动的快节奏需求，百亿亿次级 HPC 和万亿参数的 AI 模型需要服务器集群中的每一个 GPU 之间实现平滑流畅的高速通信，以实现大规模加速。

第四代 NVLink 可通过 NVIDIA DGX™ 和 HGX™ 服务器扩展多 GPU 输入和输出 (IO)，每个 GPU 的双向传输速率可�� 900 GB/s，比 PCIe 5.0 的带宽高 7 倍。

第三代 NVIDIA NVSwitch™ 支持 SHARP™ 网络计算技术，打破了该技术只能通过 InfiniBand 提供的传统。此外，八卡 H200 或 H100 GPU 服务器与上一代 A100 Tensor Core GPU 系统相比，all-reduce 吞吐量增加了两倍。

配备 NVLink Switch 系统的 DGX GH200 系统支持由多达 256 个相互连接的 H200 组成的集群，同时提供 57.6 TB/s 的 all-to-all 带宽。

详细了解 NVLink 和 NVSwitch

NVIDIA 机密计算

虽然数据在存储中和在网络传输时处于加密状态，但在数据处理期间并不受保护。NVIDIA 机密计算通过保护使用中的数据和应用来弥合这一差距。NVIDIA Hopper 架构引入了具有机密计算功能的加速计算平台。

凭借强大的基于硬件的安全性，用户可以在内部、云端或边缘运行应用，并确保未经授权的实体在使用时无法查看或修改应用代码和数据。这一方面能够保护数据和应用的机密性和完整性，另一方面在用于 AI 训练、推理和 HPC 工作负载时可以实现 H200 和 H100 GPU 的大幅加速。

详细了解 NVIDIA 机密计算

第二代 MIG

借助多实例 GPU (MIG)，GPU 可以分割成多个较小的、完全独立的实例，并拥有自己的内存、缓存和计算核心。Hopper 架构通过多达 7 个 GPU 实例在虚拟化环境中支持多租户、多用户配置，进一步增强了 MIG，在硬件和管理程序级别使用机密计算安全地隔离每个实例。借助每个 MIG 实例的专用视频解码器，在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。此外，借助 Hopper 架构的并发 MIG 分析，管理员可以监控合适规模的 GPU 加速，并为用户优化资源分配。

对于工作负载较小的研究人员，不必租用完整的云服务实例，他们可以选择使用 MIG 安全地划出一部分 GPU，同时保证其数据在静态、传输和计算时安全无虞。

详细了解 MIG 技术

DPX 指令

动态编程是一种算法技术，通过将复杂递归问题分解为更简单的子问题来解决。通过存储子问题的结果，您之后也不必重新计算它们，从而减少了指数级问题解决的时间和复杂性。动态编程常用于各种用例。例如，Floyd-Warshall 是一种路线优化算法，可用于绘制运输和配送车队的最短路线；Smith-Waterman 算法可用于 DNA 序列比对和蛋白质折叠应用。

Hopper 架构引入了 DPX 指令，与 CPU 相比将动态编程算法速度提高了 40 倍，与 NVIDIA 前一代 Ampere 架构 GPU 相比，则提高了 7 倍。这大幅加快了疾病诊断、实时路由优化甚至图形分析的速度。

详细了解 DPX 指令

初步规格，可能会有所变更
DPX 指令比较 HGX H100 4-GPU 与双路 32 核 IceLake CPU

深入了解 NVIDIA Hopper 架构

阅读白皮书