La plataforma de computación de IA líder en el mundo.
La IA, las simulaciones complejas y los conjuntos de datos masivos requieren múltiples GPU con interconexiones extremadamente rápidas y una pila de software totalmente acelerada. La plataforma de supercomputación de IA NVIDIA HGX™ reúne toda la potencia de las GPU NVIDIA, NVLink®, las redes NVIDIA y pilas de software de IA y computación de alto rendimiento (HPC) totalmente optimizadas para proporcionar el mayor rendimiento de las aplicaciones y acelerar el tiempo de obtención de información.
NVIDIA HGX B200 y HGX B100 integran GPU NVIDIA Blackwell Tensor Cores con interconexiones de alta velocidad para impulsar el centro de datos hacia una nueva era de computación acelerada e IA generativa. Los sistemas HGX basados en Blackwell, principal plataforma de escalado acelerado con hasta 15 veces más rendimiento de inferencia que la generación anterior, están diseñados para las cargas de trabajo de IA generativa, análisis de datos y HPC más exigentes.
NVIDIA HGX incluye opciones de red avanzadas, a velocidades de hasta 400 gigabits por segundo (Gb/s), que utilizan NVIDIA Quantum-2 InfiniBand y Spectrum™-X Ethernet para obtener el máximo rendimiento de la IA. HGX también incluye unidades de procesamiento de datos (DPU) NVIDIA® BlueField®-3 para permitir la creación de redes en la nube, el almacenamiento combinable, la seguridad de confianza cero y la elasticidad de cálculo de la GPU en nubes de IA a hiperescala.
Rendimiento previsto sujeto a cambios. Latencia de token a token (TTL) = 50 milisegundos (ms) en tiempo real, latencia de primer token (FTL) = 5 s, longitud de secuencia de entrada = 32 768, longitud de secuencia de salida = 1028, 8 GPU NVIDIA HGX™ H100 de ocho vías refrigeradas por aire frente a 1 GPU HGX B200 de ocho vías refrigeradas por aire, por comparación de rendimiento de GPU.
HGX B200 logra un rendimiento de inferencia hasta 15 veces mayor que la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. La segunda generación del motor transformador utiliza tecnología de núcleos Tensor de Blackwell personalizada combinada con las innovaciones de TensorRT™-LLM y Nemo™ Framework para acelerar la inferencia de modelos lingüísticos de gran tamaño (LLM) y modelos de mezcla de expertos (MoE).
Rendimiento previsto sujeto a cambios. Escala de 32 768 GPU, clúster HGX H100 de ocho vías y refrigeración por aire de 4096x: Red de 400 G InfiniBand (IB), clúster HGX B200 de ocho vías y refrigeración por aire de 4096x: red IB de 400 G.
El motor transformador de segunda generación, que incorpora coma flotante de 8 bits (FP8) y nuevas precisiones, permite un entrenamiento 3 veces más rápido para modelos lingüísticos de gran tamaño como GPT-MoE-1.8T. Este avance se complementa con NVLink de quinta generación con 1,8 TB/s de interconexión GPU-GPU, redes InfiniBand y el software NVIDIA Magnum IO™ . Juntos, garantizan una escalabilidad eficiente para empresas y clústeres de computación de GPU de gran tamaño.
El centro de datos es la nueva unidad de computación y las redes desempeñan un papel integral en el escalado del rendimiento de las aplicaciones. Junto con NVIDIA Quantum InfiniBand, HGX ofrece un rendimiento y una eficiencia de clase mundial, que garantiza la utilización completa de los recursos informáticos.
Para los centros de datos en la nube de IA que implementan Ethernet, HGX se utiliza mejor con la plataforma de red NVIDIA Spectrum-X, que impulsa el mayor rendimiento de IA con Ethernet. Con conmutadores NVIDIA Spectrum™-X y DPU BlueField-3, ofrece resultados consistentes y predecibles para miles de trabajos de IA simultáneos a todas las escalas a través de la utilización óptima de recursos y el aislamiento del rendimiento. Spectrum-X también permite la seguridad avanzada de varios inquilinos en la nube y de confianza cero. Como diseño de referencia, NVIDIA ha diseñado Israel-1, un superordenador de IA generativa a hiperescala creado con servidores Dell PowerEdge XE9680 basado en la plataforma de ocho GPU NVIDIA HGX, DPU BlueField-3y los conmutadores Spectrum-X.
Plataforma NVIDIA Quantum-2 InfiniBand: Conmutador Quantum-2, adaptador ConnectX-7, DPU BlueField-3 |
Plataforma NVIDIA Spectrum-X: Conmutador Spectrum-4, BlueField-3 SuperNIC |
Plataforma Ethernet NVIDIA Spectrum: Conmutador Spectrum, adaptador ConnectX, DPU BlueField |
|
---|---|---|---|
Entrenamiento de Deep Learning | La mejor | Mejor | Bien |
Simulación científica | La mejor | Mejor | Bien |
Análisis de datos | La mejor | Mejor | Bien |
Inferencia de Deep Learning | La mejor | Mejor | Bien |
NVIDIA HGX está disponible en placas base individuales con cuatro u ocho GPU H200 or H100 u ocho GPU Blackwell. Estas poderosas combinaciones de hardware y software sientan las bases para un rendimiento de supercomputación de IA sin precedentes.
HGX B200 | HGX B100 | |
---|---|---|
GPUs | HGX B200 8-GPU | HGX B100 8-GPU |
Formato | 8x NVIDIA B200 SXM | 8x NVIDIA B100 SXM |
Tensor Core de FP4 | 144 PFLOPS | 112 PFLOPS |
Tensor Core de FP8/FP6 | 72 PFLOPS | 56 PFLOPS |
Tensor Core de INT8 | 72 POPS | 56 POPS |
Tensor Core de FP16/BF16 | 36 PFLOPS | 28 PFLOPS |
Tensor Core de TF32 | 18 PFLOPS | 14 PFLOPS |
FP32 | 640 TFLOPS | 480 TFLOPS |
FP64 | 320 TFLOPS | 240 TFLOPS |
Tensor Core de FP64 | 320 TFLOPS | 240 TFLOPS |
Memoria | Up to 1.5TB | Up to 1.5TB |
NVIDIA NVLink | 5ª generación | 5ª generación |
NVIDIA NVSwitch™ | Cuarta generación | Cuarta generación |
Ancho de banda de GPU a GPU de NVSwitch | 1,8 TB/s | 1,8 TB/s |
Ancho de banda agregado total | 14,4 TB/s | 14,4 TB/s |
* HGX H200 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
GPUs | HGX H200 4-GPU | HGX H200 8-GPU | ||
Formato | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | ||
Tensor Core de FP8/FP6 | 16 PFLOPS | 32 PFLOPS | ||
Tensor Core de INT8 | 16 POPS | 32 POPS | ||
Tensor Core de FP16/BFLOAT16 | 8 PFLOPS | 16 PFLOPS | ||
Tensor Core de TF32 | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
Tensor Core de FP64 | 270 TFLOPS | 540 TFLOPS | ||
Memoria | Hasta 564 GB | Hasta 1,1 TB | ||
NVLink | Cuarta generación | Cuarta generación | ||
NVSwitch | N/D | Tercera generación | ||
Ancho de banda de GPU a GPU de NVSwitch | N/D | 900GB/s | ||
Ancho de banda agregado total | 3,6 TB/s | 7,2 TB/s |
* HGX H100 | ||||
---|---|---|---|---|
4-GPU | 8-GPU | |||
GPUs | HGX H100 4-GPU | HGX H100 8-GPU | ||
Formato | 4x NVIDIA H100 SXM | 8x NVIDIA H100 SXM | ||
HPC and AI compute (FP64/TF32/FP16/FP8/INT8)* | 268TF/4PF/8PF/16PF/16 POPS | 535TF/8PF/16PF/32PF/32 POPS | ||
FP8/FP6 Tensor Core | 16 PFLOPS | 32 PFLOPS | ||
INT8 Tensor Core | 16 POPS | 32 POPS | ||
FP16/BFLOAT16 Tensor Core | 8 PFLOPS | 16 PFLOPS | ||
TF32 Tensor Core | 4 PFLOPS | 8 PFLOPS | ||
FP32 | 270 TFLOPS | 540 TFLOPS | ||
FP64 | 140 TFLOPS | 270 TFLOPS | ||
FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | ||
Memory | Hasta 320 GB | Hasta 640 GB | ||
NVLink | Cuarta generación | Cuarta generación | ||
NVSwitch | N/D | Tercera generación | ||
NVLink Switch | N/D | N/D | ||
Ancho de banda de GPU a GPU de NVSwitch | N/D | 900 GB/s | ||
Ancho de banda agregado total | 3,6 TB/s | 7,2 TB/s |
* Con dispersión
Obtenga más información sobre la GPU NVIDIA H200 Tensor Core.