适用于主流服务器的 NVIDIA H100 Tensor Core GPU 随附 NVIDIA AI Enterprise 软件套件,能够以强大的性能简化 AI 的采用。
详细了解通过 NVIDIA Hopper™ 架构为加速计算实现新的巨大飞跃。从小型企业到百亿亿次级高性能计算 (HPC) 和万亿参数的 AI,Hopper 架构可安全扩展每个数据中心的各种工作负载,让出色的创新者能够以人类历史上更快的速度完成工作。
Hopper 采用先进的台积电 4N 工艺制造,拥有超过 800 亿个晶体管,采用五项突破性创新技术为 NVIDIA H200 和 H100 Tensor Core GPU 提供动力支持。在这些创新技术的加持下,新一代 Hopper 与上一代相比,在生成式 AI 训练和推理方面实现了惊人的速度提升。
NVIDIA Hopper 架构通过 Transformer 引擎推进 Tensor Core 技术的发展,旨在加�� AI 模型训练。Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度,以大幅加速 Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和 INT8 精度的每秒浮点运算 (FLOPS) 提高了 3 倍。Hopper Tensor Core 与 Transformer 引擎和第四代 NVIDIA® NVLink® 相结合,可使 HPC 和 AI 工作负载的加速实现数量级提升。
为了满足业务活动的快节奏需求,百亿亿次级 HPC 和万亿参数的 AI 模型需要服务器集群中的每一个 GPU 之间实现平滑流畅的高速通信,以实现大规模加速。
第四代 NVLink 可通过 NVIDIA DGX™ 和 HGX™ 服务器扩展多 GPU 输入和输出 (IO),每个 GPU 的双向传输速率可��� 900 GB/s,比 PCIe 5.0 的带宽高 7 倍。
第三代 NVIDIA NVSwitch™ 支持 SHARP™ 网络计算技术,打破了该技术只能通过 InfiniBand 提供的传统。此外,八卡 H200 或 H100 GPU 服务器与上一代 A100 Tensor Core GPU 系统相比,all-reduce 吞吐量增加了两倍。
配备 NVLink Switch 系统的 DGX GH200 系统支持由多达 256 个相互连接的 H200 组成的集群,同时提供 57.6 TB/s 的 all-to-all 带宽。
虽然数据在存储中和在网络传输时处于加密状态,但在数据处理期间并不受保护。NVIDIA 机密计算通过保护使用中的数据和应用来弥合这一差距。NVIDIA Hopper 架构引入了具有机密计算功能的加速计算平台。
凭借强大的基于硬件的安全性,用户可以在内部、云端或边缘运行应用,并确保未经授权的实体在使用时无法查看或修改应用代码和数据。这一方面能够保护数据和应用的机密性和完整性,另一方面在用于 AI 训练、推理和 HPC 工作负载时可以实现 H200 和 H100 GPU 的大幅加速。
借助多实例 GPU (MIG),GPU 可以分割成多个较小的、完全独立的实例,并拥有自己的内存、缓存和计算核心。Hopper 架构通过多达 7 个 GPU 实例在虚拟化环境中支持多租户、多用户配置,进一步增强了 MIG,在硬件和管理程序级别使用机密计算安全地隔离每个实例。借助每个 MIG 实例的专用视频解码器,在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。此外,借助 Hopper 架构的并发 MIG 分析,管理员可以监控合适规模的 GPU 加速,并为用户优化资源分配。
对于工作负载较小的研究人员,不必租用完整的云服务实例,他们可以选择使用 MIG 安全地划出一部分 GPU,同时保证其数据在静态、传输和计算时安全无虞。
动态编程是一种算法技术,通过将复杂递归问题分解为更简单的子问题来解决。通过存储子问题的结果,您之后也不必重新计算它们,从而减少了指数级问题解决的时间和复杂性。动态编程常用于各种用例。例如,Floyd-Warshall 是一种路线优化算法,可用于绘制运输和配送车队的最短路线;Smith-Waterman 算法可用于 DNA 序列比对和蛋白质折叠应用。
Hopper 架构引入了 DPX 指令,与 CPU 相比将动态编程算法速度提高了 40 倍,与 NVIDIA 前一代 Ampere 架构 GPU 相比,则提高了 7 倍。这大幅加快了疾病诊断、实时路由优化甚至图形分析的速度。
初步规格,可能会有所变更
DPX 指令比较 HGX H100 4-GPU 与双路 32 核 IceLake CPU