NVIDIA HGX AI 슈퍼컴퓨터

세계 최고의 AI 컴퓨팅 플랫폼입니다.

AI 및 HPC를 위한 맞춤형 구축

AI, 복잡한 시뮬레이션, 방대한 데이터세트에는 매우 빠른 상호 연결 및 완전히 가속화된 소프트웨어 스택을 지원하는 다중 GPU가 필요합니다. NVIDIA HGX™ AI 슈퍼컴퓨팅 플랫폼은 NVIDIA GPU, NVIDIA® NVLink®, NVIDIA 네트워킹의 완전한 성능과 NVIDIA NGC™ 카탈로그의 완전히 최적화된 NVIDIA AI 및 HPC 소프트웨어 스택을 결합하여 최고의 애플리케이션 성능을 제공하고 인사이트 획득 시간을 단축합니다.

타의 추종을 불허하는 엔드 투 엔드 가속 컴퓨팅 플랫폼

NVIDIA HGX B200 및 HGX B100은 NVIDIA Blackwell Tensor 코어 GPU 를 고속 상호 연결과 통합하여 데이터센터를 새로운 시대로 이끌고 있습니다. 이전 세대보다 최대 15배 향상된 추론 성능을 갖춘 최고의 가속 스케일업 플랫폼인 Blackwell 기반 HGX 시스템은 가장 까다로운 생성형 AI, 데이터 분석 및 HPC 워크로드를 위해 설계되었습니다.

NVIDIA HGX H200은 H200 Tensor 코어 GPU를 고속 인터커넥트와 결합하여 모든 데이터센터에 탁월한 성능, 확장성 및 보안을 제공합니다. 최대 8개 GPU 구성은 독보적인 가속화를 실현하며, 놀라운 32페타플롭스 성능과 결합되어 세계에서 가장 강력한 AI 및 HPC용 가속 확장 서버 플랫폼을 구성합니다.

HGX H200과 HGX H100에는 최고의 AI 성능을 위해 NVIDIA Quantum-2 InfiniBand 및 Spectrum™-X 이더넷을 활용한 최대 400Gb/s 속도의 고급 네트워킹 옵션이 포함되어 있습니다. 또한 HGX H200 및 HGX H100에는 NVIDIA® BlueField®-3 데이터 처리 장치(DPU)도 포함되어 있어 하이퍼스케일 AI 클라우드에서 클라우드 네트워킹, 구성 가능한 스토리지, 제로 트러스트 보안, GPU 컴퓨팅 탄력성을 지원합니다.

HGX Stack

딥 러닝 추론: 성능 및 다용성

차세대 거대 언어 모델을 위한 실시간 추론

예상 성능은 변경될 수 있습니다. 토큰 간 레이턴시(TTL) = 실시간 50ms, 첫 번째 토큰 레이턴시(FTL) = 5s, 입력 시퀀스 길이 = 32,768, 출력 시퀀스 길이 = 1,028, 8x 8방향 NVIDIA HGX™ H100 GPU 공랭식과 1x 8방향 HGX B200 공랭식, GPU당 성능 비교​.

HGX B200은 GPT-MoE-1.8T와 같은 대규모 모델에서 이전 NVIDIA Hopper™ 세대보다 최대 15배 높은 추론 성능을 달성합니다. 2세대 트랜스포머 엔진은 TensorRT™-LLM 및 Nemo™ Framework 혁신과 결합된 맞춤형 Blackwell Tensor 코어 기술을 사용하여 거대 언어 모델(LLM) 및 전문가 혼합(MoE) 모델의 추론을 가속화합니다.

딥 러닝 훈련: 성능 및 확장성

한 차원 높은 훈련 성능

예상 성능은 변경될 수 있습니다. 32,768 GPU 규모, 4,096x 8방향 HGX H100 공랭식 클러스터: 400G InfiniBand(IB) 네트워크, 4,096x 8방향 HGX B200 공랭식 클러스터: 400G IB 네트워크.

8비트 부동 소수점(FP8) 및 새로운 정밀도를 특징으로 하는 2세대 트랜스포머 엔진은 GPT-MoE-1.8T와 같은 대규모 언어 모델에 대해 놀라운 3배 빠른 훈련을 지원합니다. 이러한 혁신은 1.8TB/s의 GPU 간 상호 연결, InfiniBand 네트워킹 및 NVIDIA Magnum IO™ 소프트웨어를 갖춘 5세대 NVLink로 보완됩니다. 이들은 함께 엔터프라이즈 및 광범위한 GPU 컴퓨팅 클러스터를 위한 효율적인 확장성을 보장합니다.

NVIDIA 네트워킹으로 HGX 가속하기

데이터센터는 컴퓨팅의 새로운 단위이며 네트워킹은 전체 데이터센터에서 애플리케이션 성능을 확장하는 데 중요한 역할을 합니다. NVIDIA Quantum InfiniBand와 결합된 HGX는 컴퓨팅 리소스의 완전한 활용을 보장하는 세계적 수준의 성능과 효율성을 제공합니다.

이더넷을 배포하는 AI 클라우드 데이터센터의 경우 HGX는 400Gb/s 이더넷을 통해 최고의 AI 성능을 구현하는 NVIDIA Spectrum-X 네트워킹 플랫폼과 함께 사용하는 것이 가장 좋습니다. NVIDIA Spectrum™-4 스위치 및 BlueField-3 DPU를 갖춘 Spectrum-X는 최적의 리소스 활용 및 성능의 격리를 통해 모든 규모의 수천 개 동시 AI 작업에 대해 일관적이고 예측 가능한 결과를 제공합니다. Spectrum-X는 고급 클라우드 멀티 테넌시 및 제로 트러스트 보안을 지원합니다. NVIDIA는 NVIDIA Spectrum-X의 레퍼런스 디자인으로 NVIDIA HGX™ H200 Ehsms 100 8GPU 플랫폼, BlueField-3 DPU 및 Spectrum-4 스위치 기반의 Dell PowerEdge XE9680 서버로 구축된 하이퍼스케일 생성형 AI 슈퍼컴퓨터인 Israel-1을 디자인했습니다.

NVIDIA 네트워킹으로 HGX 연결하기

  NVIDIA Quantum-2 InfiniBand 플랫폼:

Quantum-2 스위치, ConnectX-7 어댑터, BlueField-3 DPU

NVIDIA Spectrum-X 플랫폼:

Spectrum-4 스위치, BlueField-3 DPU, Spectrum-X 라이선스

NVIDIA Spectrum 이더넷 플랫폼:

Spectrum 스위치, ConnectX 어댑터, BlueField DPU

딥 러닝 훈련 최고 더 좋음 양호
과학적 시뮬레이션 최고 더 좋음 양호
데이터 분석 최고 더 좋음 양호
딥 러닝 추론 최고 더 좋음 양호

NVIDIA HGX 사양

NVIDIA HGX는 4개의 H200 또는 H100 GPU 또는 8개의 H200, H100, B200 또는 B100 GPU가 탑재된 단일 베이스보드로 제공됩니다. 이러한 하드웨어와 소프트웨어의 강력한 조합은 전례 없는 AI 슈퍼컴퓨팅 플랫폼 성능의 토대가 됩니다.

  HGX B200 HGX B100
GPU HGX B200 8GPU HGX B100 8GPU
폼 팩터 8x NVIDIA B200 SXM 8x NVIDIA B100 SXM
HPC 및 AI 컴퓨팅 (FP64/TF32/FP16/FP8/FP4)* 320TF/18PF/36PF/72PF/144PF 240TF/14PF/28PF/56PF/112PF
메모리 최대 1.5TB 최대 1.5TB
NVIDIA NVLink 5세대 5세대
NVIDIA NVSwitch™ 4세대 4세대
NVSwitch GPU 간 대역폭 1.8TB/s 1.8TB/s
총 집계 대역폭 14.4TB/s 14.4TB/s
  * HGX H200
  4GPU 8GPU
GPU HGX H200 4GPU HGX H200 8GPU
폼 팩터 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
HPC 및 AI 컴퓨팅 (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
메모리 최대 564GB 최대 1.1TB
NVLink 4세대 4세대
NVSwitch 해당 없음 3세대
NVSwitch GPU 간 대역폭 해당 없음 900GB/s
총 집계 대역폭 3.6TB/s 7.2TB/s
  * HGX H100
  4GPU 8GPU
GPU HGX H100 4GPU HGX H100 8GPU
폼 팩터 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
HPC 및 AI 컴퓨팅 (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
메모리 최대 320GB 최대 640GB
NVLink 4세대 4세대
NVSwitch 해당 없음 3세대
NVLink Switch 해당 없음 해당 없음
해당 없음 해당 없음 900GB/s
총 집계 대역폭 3.6TB/s 7.2TB/s

NVIDIA H200 Tensor 코어 GPU에 대해 자세히 알아보세요.