NVIDIA HGX 人工智慧超級電腦

全球頂尖的人工智慧運算平台。

專為人工智慧與高效能運算打造

人工智慧、複雜模擬和大量資料集,都需要多個 GPU 和非常快速的互連技術,以及全面加速的軟體堆疊。NVIDIA HGX™ 人工智慧超級運算平台整合 NVIDIA GPU、NVLink®、NVIDIA 網路的強大功能,以及完全最佳化的人工智慧和高效能運算 (HPC) 軟體堆疊,能提供最優異的應用程式效能及最快速的分析回應時間。

無與倫比的端對端加速運算平台

The NVIDIA HGX B200 與 HGX B100 整合 NVIDIA Blackwell Tensor 核心 GPU 與高速互連技術,將資料中心帶入全新紀元。採用 Blackwell 架構的 HGX 系統是頂尖的加速擴充平台,其推論效能比前一代高出 15 倍,專為需求最嚴苛的生成式人工智慧、資料分析和高效能運算工作負載而設計。

NVIDIA HGX H200 結合 H200 Tensor 核心 GPU 與高速互連技術,為每個資料中心提供卓越的效能、擴充能力和安全性。高達 8 個 GPU 的配置可帶來前所未見的加速能力,結合驚人的 32 petaFLOPS 效能後,更能打造全球最強的人工智慧與高效能運算加速縱向擴充伺服器平台。

HGX H200 和 HGX H100 具備先進的網路選項,速度最高可達每秒 400 GB;加上 NVIDIA Quantum-2 InfiniBand 和 Spectrum™-X 乙太網路,可締造最出色的人工智慧效能。HGX H200 和 HGX H100 也搭載 NVIDIA® BlueField®-3 資料處理器 (DPU),可在超大規模人工智慧雲端中支援雲端網路、組合式儲存空間、零信任安全性和 GPU 運算彈性。

HGX Stack

深度學習推論:效能與多功能性

適用於新一代大型語言模型的即時推論

此為預計效能,之後可能會有所變動。即時的標記對標記延遲 (TTL) = 50 毫秒 (ms),第一個標記延遲 (FTL) = 5 秒,輸入序列長度 = 32,768,輸出序列長度 = 1,028,再比較單一 GPU 效能,氣冷版八向 NVIDIA HGX™ H100 GPU 效能為 8 倍,氣冷版八向 HGX B200 效能則為 1 倍。​

HGX B200 對 GPT-MoE-1.8T 等大型模型的推論效能,是前一代 NVIDIA Hopper™ 的 15 倍。第二代 Transformer 引擎採用自訂的 Blackwell Tensor 核心技術,並結合 TensorRT™-LLM 和 Nemo™ 框架創新技術,可加快大型語言模型 (LLM) 和專家混合 (MoE) 模型的推論速度。

深度學習訓練:效能與擴充性

新一代訓練效能

此為預計效能,之後將有可能更新。32,768 個 GPU 規模、4,096 個八向 HGX H100 氣冷式叢集:400G InfiniBand (IB) 網路、4,096 個八向 HGX B200 氣冷式叢集:400G IB 網路。

第二代 Transformer 引擎採用 8 位元浮點 (FP8) 和全新精度,可將 GPT-MoE-1.8T 等大型語言模型訓練速度大幅提升至原本的 3 倍。這項重大突破得到第五代 NVLink 的輔助,提供每秒 1.8 TB 的 GPU 對 GPU 互連、InfiniBand 網路和 NVIDIA Magnum IO™ 軟體。這些功能共同確保了企業和廣泛的 GPU 運算叢集具備有效率的可擴充能力。

運用 NVIDIA 網路加速 HGX

資料中心成為全新運算單元,網路在擴充整個資料中心的應用程式效能方面扮演關鍵要角。HGX 搭配 NVIDIA Quantum InfiniBand 可提供世界級的效能和效率,確保充分利用運算資源。

對於部署乙太網路的人工智慧雲端資料中心,HGX 最適合搭配 NVIDIA Spectrum-X 網路平台使用,此平台可在每秒 400 GB 的乙太網路上提供最高的人工智慧效能。Spectrum-X 採用 NVIDIA Spectrum™-4 交換器和 BlueField-3 DPU,透過最佳化資源使用率並採取效能隔離,為各種規模的數千個同步人工智慧作業提供一致、可預測的結果。Spectrum-X 可支援先進的雲端多租戶和零信任安全性。 NVIDIA 設計出 Israel-1 作為 NVIDIA Spectrum-X 的參考設計;這是一款超大規模的生成式人工智慧超級電腦,所採用的 Dell PowerEdge XE9680 伺服器是以 NVIDIA HGX H200 或 H100 8 GPU 平台、BlueField-3 DPU 和 Spectrum-4 交換器為基礎打造而成。

透過 NVIDIA 網路連接 HGX

  NVIDIA Quantum-2 InfiniBand 平台:

Quantum-2 交換器、ConnectX-7 介面卡、BlueField-3 DPU

NVIDIA Spectrum-X 平台:

Spectrum-4 交換器、 BlueField-3 DPU、 Spectrum-X 授權

NVIDIA Spectrum 乙太網路平台:

Spectrum 交換器、ConnectX 介面卡、BlueField DPU

深度學習訓練 最佳 更好 良好
科學模擬 最佳 更好 良好
資料分析 最佳 更好 良好
深度學習推論 最佳 更好 良好

NVIDIA HGX 規格

NVIDIA HGX 可用於搭載 4 個 H200 或 H100 GPU,或 8 個 H200、 H100、B200 或 B100 GPU 的單一基板。以硬體與軟體的強大組合奠定良好基礎,帶進前所未見的人工智慧超級運算效能。

  HGX B200 HGX B100
GPU HGX B200 8-GPU HGX B100 8-GPU
尺寸規格 8 個 NVIDIA B200 SXM 8 個 NVIDIA B100 SXM
高效能運算與人工智慧運算 (FP64/TF32/FP16/FP8/FP4)* 320TF/18PF/36PF/72PF/144PF 240TF/14PF/28PF/56PF/112PF
記憶體 高達 1.5TB 高達 1.5TB
NVIDIA NVLink 第五代 第五代
NVIDIA NVSwitch™ 第四代 第四代
NVSwitch GPU 至 GPU 頻寬 每秒 1.8 TB 每秒 1.8 TB
總頻寬調配 每秒 14.4 TB 每秒 14.4 TB
  * HGX H200
  4 個 GPU 8 個 GPU
GPU HGX H200 4-GPU HGX H200 8-GPU
尺寸規格 4 個 NVIDIA H200 SXM 8 個 NVIDIA H200 SXM
高效能運算與人工智慧運算 (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
記憶體 高達 564GB 高達 1.1TB
NVLink 第四代 第四代
NVSwitch 未提供 第三代
NVSwitch GPU 至 GPU 頻寬 未提供 每秒 900 GB
總頻寬調配 每秒 3.6 TB 每秒 7.2 TB
  * HGX H100
  4 個 GPU 8 個 GPU
GPU HGX H100 4-GPU HGX H100 8-GPU
尺寸規格 4 個 NVIDIA H100 SXM 8 個 NVIDIA H100 SXM
高效能運算與人工智慧運算 (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
記憶體 高達 320GB 高達 640GB
NVLink 第四代 第四代
NVSwitch 未提供 第三代
NVLink Switch 未提供 未提供
NVSwitch GPU 至 GPU 頻寬 未提供 900GB/s
總頻寬調配 每秒 3.6 TB 每秒 7.2 TB

深入瞭解 NVIDIA H200 Tensor 核心 GPU。