Superordenador de IA NVIDIA HGX

La plataforma de computación de IA líder en el mundo.

Diseñado específicamente para IA y HPC

La IA, las simulaciones complejas y los conjuntos de datos masivos requieren múltiples GPU con interconexiones extremadamente rápidas y una pila de software totalmente acelerada. La plataforma de supercomputación de IA NVIDIA HGX™ reúne toda la potencia de las GPU NVIDIA, NVLink®, las redes NVIDIA y pilas de software de IA y computación de alto rendimiento (HPC) totalmente optimizadas para proporcionar el mayor rendimiento de las aplicaciones y acelerar el tiempo de obtención de información.

Plataforma de computación acelerada de extremo a extremo sin igual

NVIDIA HGX B200 y HGX B100 integran GPU NVIDIA Blackwell Tensor Cores con interconexiones de alta velocidad para impulsar el centro de datos hacia una nueva era de computación acelerada e IA generativa. Los sistemas HGX basados en Blackwell, principal plataforma de escalado acelerado con hasta 15 veces más rendimiento de inferencia que la generación anterior, están diseñados para las cargas de trabajo de IA generativa, análisis de datos y HPC más exigentes.

NVIDIA HGX incluye opciones de red avanzadas, a velocidades de hasta 400 gigabits por segundo (Gb/s), que utilizan NVIDIA Quantum-2 InfiniBand y Spectrum™-X Ethernet para obtener el máximo rendimiento de la IA. HGX también incluye unidades de procesamiento de datos (DPU) NVIDIA® BlueField®-3 para permitir la creación de redes en la nube, el almacenamiento combinable, la seguridad de confianza cero y la elasticidad de cálculo de la GPU en nubes de IA a hiperescala.

Inferencia de deep learning: rendimiento y versatilidad

Rendimiento previsto sujeto a cambios. Latencia de token a token (TTL) = 50 milisegundos (ms) en tiempo real, latencia de primer token (FTL) = 5 s, longitud de secuencia de entrada = 32 768, longitud de secuencia de salida = 1028, 8 GPU NVIDIA HGX™ H100 de ocho vías refrigeradas por aire frente a 1 GPU HGX B200 de ocho vías refrigeradas por aire, por comparación de rendimiento de GPU.

Inferencia en tiempo real para la próxima generación de modelos lingüísticos de gran tamaño

HGX B200 logra un rendimiento de inferencia hasta 15 veces mayor que la generación anterior de NVIDIA Hopper™ para modelos masivos como GPT-MoE-1.8T. La segunda generación del motor transformador utiliza tecnología de núcleos Tensor de Blackwell personalizada combinada con las innovaciones de TensorRT™-LLM y Nemo™ Framework para acelerar la inferencia de modelos lingüísticos de gran tamaño (LLM) y modelos de mezcla de expertos (MoE).

Entrenamiento de deep learning: rendimiento y escalabilidad

Rendimiento previsto sujeto a cambios. Escala de 32 768 GPU, clúster HGX H100 de ocho vías y refrigeración por aire de 4096x: Red de 400 G InfiniBand (IB), clúster HGX B200 de ocho vías y refrigeración por aire de 4096x: red IB de 400 G.

Rendimiento del entrenamiento de siguiente nivel

El motor transformador de segunda generación, que incorpora coma flotante de 8 bits (FP8) y nuevas precisiones, permite un entrenamiento 3 veces más rápido para modelos lingüísticos de gran tamaño como GPT-MoE-1.8T. Este avance se complementa con NVLink de quinta generación con 1,8 TB/s de interconexión GPU-GPU, redes InfiniBand y el software NVIDIA Magnum IO™ . Juntos, garantizan una escalabilidad eficiente para empresas y clústeres de computación de GPU de gran tamaño.

Acelerar HGX con NVIDIA Networking

El centro de datos es la nueva unidad de computación y las redes desempeñan un papel integral en el escalado del rendimiento de las aplicaciones. Junto con NVIDIA Quantum InfiniBand, HGX ofrece un rendimiento y una eficiencia de clase mundial, que garantiza la utilización completa de los recursos informáticos.

Para los centros de datos en la nube de IA que implementan Ethernet, HGX se utiliza mejor con la plataforma de red NVIDIA Spectrum-X, que impulsa el mayor rendimiento de IA con Ethernet. Con conmutadores NVIDIA Spectrum™-X y DPU BlueField-3, ofrece resultados consistentes y predecibles para miles de trabajos de IA simultáneos a todas las escalas a través de la utilización óptima de recursos y el aislamiento del rendimiento. Spectrum-X también permite la seguridad avanzada de varios inquilinos en la nube y de confianza cero. Como diseño de referencia, NVIDIA ha diseñado Israel-1, un superordenador de IA generativa a hiperescala creado con servidores Dell PowerEdge XE9680 basado en la plataforma de ocho GPU NVIDIA HGX, DPU BlueField-3y los conmutadores Spectrum-X.

Conexión de HGX con NVIDIA Networking

	Plataforma NVIDIA Quantum-2 InfiniBand: Conmutador Quantum-2, adaptador ConnectX-7, DPU BlueField-3	Plataforma NVIDIA Spectrum-X: Conmutador Spectrum-4, BlueField-3 SuperNIC	Plataforma Ethernet NVIDIA Spectrum: Conmutador Spectrum, adaptador ConnectX, DPU BlueField
Entrenamiento de Deep Learning	La mejor	Mejor	Bien
Simulación científica	La mejor	Mejor	Bien
Análisis de datos	La mejor	Mejor	Bien
Inferencia de Deep Learning	La mejor	Mejor	Bien

Especificaciones de NVIDIA HGX

NVIDIA HGX está disponible en placas base individuales con cuatro u ocho GPU H200 or H100 u ocho GPU Blackwell. Estas poderosas combinaciones de hardware y software sientan las bases para un rendimiento de supercomputación de IA sin precedentes.

Blackwell
Hopper

	HGX B200	HGX B100
GPUs	HGX B200 8-GPU	HGX B100 8-GPU
Formato	8x NVIDIA B200 SXM	8x NVIDIA B100 SXM
Tensor Core de FP4	144 PFLOPS	112 PFLOPS
Tensor Core de FP8/FP6	72 PFLOPS	56 PFLOPS
Tensor Core de INT8	72 POPS	56 POPS
Tensor Core de FP16/BF16	36 PFLOPS	28 PFLOPS
Tensor Core de TF32	18 PFLOPS	14 PFLOPS
FP32	640 TFLOPS	480 TFLOPS
FP64	320 TFLOPS	240 TFLOPS
Tensor Core de FP64	320 TFLOPS	240 TFLOPS
Memoria	Up to 1.5TB	Up to 1.5TB
NVIDIA NVLink	5ª generación	5ª generación
NVIDIA NVSwitch™	Cuarta generación	Cuarta generación
Ancho de banda de GPU a GPU de NVSwitch	1,8 TB/s	1,8 TB/s
Ancho de banda agregado total	14,4 TB/s	14,4 TB/s

	* HGX H200
	4-GPU	8-GPU
GPUs	HGX H200 4-GPU	HGX H200 8-GPU
Formato	4x NVIDIA H200 SXM	8x NVIDIA H200 SXM
Tensor Core de FP8/FP6	16 PFLOPS	32 PFLOPS
Tensor Core de INT8	16 POPS	32 POPS
Tensor Core de FP16/BFLOAT16	8 PFLOPS	16 PFLOPS
Tensor Core de TF32	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
Tensor Core de FP64	270 TFLOPS	540 TFLOPS
Memoria	Hasta 564 GB	Hasta 1,1 TB
NVLink	Cuarta generación	Cuarta generación
NVSwitch	N/D	Tercera generación
Ancho de banda de GPU a GPU de NVSwitch	N/D	900GB/s
Ancho de banda agregado total	3,6 TB/s	7,2 TB/s

	* HGX H100
	4-GPU	8-GPU
GPUs	HGX H100 4-GPU	HGX H100 8-GPU
Formato	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
HPC and AI compute (FP64/TF32/FP16/FP8/INT8)*	268TF/4PF/8PF/16PF/16 POPS	535TF/8PF/16PF/32PF/32 POPS
FP8/FP6 Tensor Core	16 PFLOPS	32 PFLOPS
INT8 Tensor Core	16 POPS	32 POPS
FP16/BFLOAT16 Tensor Core	8 PFLOPS	16 PFLOPS
TF32 Tensor Core	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Memory	Hasta 320 GB	Hasta 640 GB
NVLink	Cuarta generación	Cuarta generación
NVSwitch	N/D	Tercera generación
NVLink Switch	N/D	N/D
Ancho de banda de GPU a GPU de NVSwitch	N/D	900 GB/s
Ancho de banda agregado total	3,6 TB/s	7,2 TB/s

* Con dispersión

Leer la hoja de datos de NVIDIA HGX H100

Obtenga más información sobre la GPU NVIDIA H200 Tensor Core.

Más información