NVIDIA Magnum IO

Die IO-Beschleunigungsplattform für Rechenzentren

Rechenzentrum-IO beschleunigen
Leistung für KI an jedem Ort

Unternehmen verfeinern ihre Daten und werden zu Anbietern von Einsichten. Rechenzentren werden zu KI-Fabriken, die durch beschleunigtes Computing ermöglicht werden – was wiederum Computing um ein Millionenfaches beschleunigt. Beschleunigtes Computing erfordert jedoch auch beschleunigtes IO. 6NVIDIA Magnum IO™ ist die Architektur für paralleles, intelligentes Rechenzentrum-IO. Es maximiert die Speicher-, Netzwerk- und Mehrfachknoten- sowie Mehrfach-GPU-Kommunikation für die wichtigsten Anwendungen der Welt mithilfe von großen Sprachmodellen, Empfehlungssystemen, Bildgebung, Simulationen und wissenschaftlicher Forschung.

NVIDIA Magnum IO Optimierungsstack

NVIDIA Magnum IO nutzt Speicher und Netzwerk-IO sowie netzwerkinternes Computing und IO-Management, um Datenbewegungen sowie den Zugriff auf und die Verwaltung von Systemen mit mehreren Grafikprozessoren und mehreren Knoten zu vereinfachen und zu beschleunigen. Magnum IO unterstützt NVIDIA CUDA-X™-Bibliotheken und schöpft die Bandbreite an Hardwaretopologien der NVIDIA-GPUs und NVIDIA-Netzwerkhardware voll aus, um optimalen Durchsatz und geringe Latenz zu erzielen.

 [Entwicklerblog] Magnum IO – Beschleunigung der E/A im modernen Rechenzentrum

Magnum IO Optimierungsstack

Speicher-IO

Bei Systemen mit mehreren Knoten und mehreren Grafikprozessoren ist die langsame Single-Thread-Leistung der CPU entscheidend für den Zugriff auf Daten lokaler oder entfernter Speichergeräte. Mit Speicher-IO-Beschleunigung umgeht die GPU die CPU und den Systemspeicher. Sie greift über acht 200-GB/s-NICs auf den Fernspeicher zu und erreicht so eine Speicherbandbreite von bis zu 1,6 TB/s.

Enthaltene Technologien:

Netzwerk-IO

NVIDIA NVLink®, NVIDIA Quantum InfiniBand, Ethernet und RDMA-Basis verringern den IO-Aufwand. Die CPU wird umgangen und direkter Datenaustausch zwischen Grafikprozessoren mit hohen Übertragungsraten ermöglicht.

Enthaltene Technologien:

Netzwerkinternes Computing

Netzwerkinternes Computing ermöglicht die Verarbeitung innerhalb des Netzwerks, wodurch die Latenz des Datenaustauschs zwischen entfernten Endpunkten mitsamt Aussetzern vermieden wird. Datenverarbeitungseinheiten (DPUs) bieten softwaredefinierte, netzwerkhardwarebeschleunigte Rechenleistung, einschließlich vorkonfigurierter Datenverarbeitungsengines sowie programmierbarer Engines.

Enthaltene Technologien:

IO-Verwaltung

Um IO Optimierungen für Rechenleistung, Netzwerk und Speicher bereitstellen zu können, benötigen Nutzer fortschrittliche Methoden für Telemetrie und Deep Troubleshooting. Die Managementplattformen von Magnum IO ermöglichen es den Betreibern von Forschungs- und Industrierechenzentren, moderne Rechenzentrums-Fabrics effizient zu versorgen, zu überwachen und zu verwalten sowie sie präventiv zu warten.

Enthaltene Technologien:

IO Für Rechenzentren anwendungsübergreifend beschleunigen

NVIDIA Magnum IO ist mit Bibliotheken für NVIDIA High Performance Computing (HPC) und KI verknüpft, um IO für vielfältige Anwendungsgebiete zu beschleunigen – von KI bis hin zu wissenschaftlichen Visualisierungen.

  • Datenanalysen
  • High Performance Computing
  • Deep Learning (Training/Inferenz)
  • Rendering und Visualisierung
Datenanalysen

Datenanalysen

Datenwissenschaft und maschinelles Lernen (ML) nutzen weltweit die meiste Rechenleistung. Schon mit geringen Genauigkeitsverbesserungen bei ML-Prognosemodellen können Milliarden von Dollar gewonnen werden.

Magnum IO-Bibliotheken und Datenanalysetools

Um die Genauigkeit zu verbessern, verfügt die RAPIDS™ Accelerator Library über einen integrierten, beschleunigten Apache-Spark-Shuffle auf Basis von UCX, der konfiguriert werden kann, um die Vorteile direkter Kommunikation zwischen Grafikprozessoren sowie RDMA zu nutzen. Mit der Kombination von NVIDIA Netzwerken, NVIDIA Magnum IO-Software, GPU-beschleunigtem Spark 3.0 und NVIDIA RAPIDS ist die NVIDIA-Rechenzentrumsplattform besonders gut geeignet, um riesige Workloads mit nie dagewesener Leistung und Effizienz zu bewältigen.

GPUDirect Storage (GDS) wurde in RAPIDS für ORC-, Parquet-, CSV- und Avro-Reader integriert. RAPIDS CuIO hat mit Parquet-Dateien mit GDS bei großen Workflows eine bis zu 4,5-fache Leistungssteigerung erzielt.

Adobe erreicht eine 7-fache Beschleunigung im Modelltraining mit Spark 3.0 bei Databricks und verringert dadurch die Kosten um 90 %

High Performance Computing

High Performance Computing

In der modernen Forschung nutzen Wissenschaftler Simulationen, um zur Erforschung neuer Arzneimittel komplexe Moleküle besser zu untersuchen, neue Energiequellen in der Physik zu erschließen und mit atmosphärischen Daten extreme Wetterverhältnisse besser vorherzusagen. Bei führenden Simulationen und Anwendungen wird NVIDIA Magnum IO genutzt, um schneller zu Erkenntnissen zu gelangen. Magnum IO nutzt hardwarebasierte Beschleunigungsengines und Smart Offloads wie RDMA, NVIDIA GPUDirect und NVIDIA SHARP. Gleichzeitig wird die hohe Bandbreite und die extrem niedrige Latenz von NVIDIA InfiniBand und NVIDIA NVLink GPUs im Netzwerk ausgeschöpft.

In Umgebungen mit mehreren Mandanten kann es vorkommen, dass Benutzeranwendungen die wahllosen Störungen durch den Datenverkehr benachbarter Anwendungen nicht bemerken. In Kombination mit der neuesten NVIDIA Quantum-2 InfiniBand-Plattform bietet Magnum IO neue und verbesserte Funktionen zur Minderung der negativen Auswirkungen auf die Leistung für den Benutzer. So können optimale Ergebnisse erzielt sowie äußerst effiziente HPC- und ML-Bereitstellungen in jeder Größenordnung ermöglicht werden.

Magnum IO-Bibliotheken und HPC-Anwendungen

Die Leistung von VASP verbessert sich deutlich, wenn MPI durch NCCL ersetzt wird. UCX beschleunigt wissenschaftliche Computing-Anwendungen wie VASP, Chroma, MIA-AI, Fun3d, CP2K und Spec-HPC2021 für schnellere Wall-Clock-Laufzeiten.

NVIDIA HPC-X erhöht die CPU-Verfügbarkeit, Anwendungsskalierbarkeit und Systemeffizienz für verbesserte Anwendungsleistung, die über verschiedene HPC-ISVs verteilt wird. NCCL, UCX und HPC-X sind Teil des HPC-SDK.

Fast Fourier Transforms (FFTs) werden häufig in einer Vielzahl von Bereichen eingesetzt, von Molekulardynamik über Signalverarbeitung und numerische Strömungssimulation (CFD) bis hin zu drahtlosen Multimedia- und ML-Anwendungen. Durch die Verwendung der NVIDIA Shared Memory Library (NVSHMEM)™ ist cuFFTMp unabhängig von der MPI-Implementierung und arbeitet fast in Lichtgeschwindigkeit. Das ist ausschlaggebend, da die Leistung von einem MPI zum anderen stark variieren kann.

Die QUDA Lattice-Quantenchromodynamik-Bibliothek (Qualitative Data Analysis) kann NVSHMEM für die Kommunikation verwenden, um den Aufwand für die CPU- und GPU-Synchronisation zu reduzieren und Rechen- sowie Kommunikationsüberlappungen zu verbessern. Dadurch wird die Latenz reduziert und starkes Skalieren verbessert.

 Mehrere Knoten und GPUs: Verwendung von NVIDIA cuFFTMp FFTs in großem Maßstab

 Größte interaktive Volumenvisualisierung – Simulierte Landung einer Mars-Sonde für die NASA, 150 TB

Deep Learning

Deep Learning

Die aufkommende Klasse von Exascale-HPC und Billionen von Parameter-KI-Modellen für Aufgaben wie übermenschliche Gesprächs-KI erfordert Monate für das Trainieren, selbst auf Supercomputern. Um diesen Vorgang auf Geschäftsgeschwindigkeit zu komprimieren und das Training innerhalb weniger Tage abzuschließen, ist eine nahtlose Hochgeschwindigkeitskommunikation zwischen jedem Grafikprozessor in einem Servercluster erforderlich, damit die Leistung skaliert werden kann. Mit der Kombination aus NVIDIA NVLink, NVIDIA NVSwitch, NVIDIA Magnum IO-Bibliotheken und einer starken Skalierung über Server hinweg ist eine KI-Trainingsbeschleunigung um das bis zu 9-Fache bei MoE-Modellen (Mix of Experts) möglich. Dies ermöglicht es Forschern, riesige Modelle in Geschäftsgeschwindigkeit zu trainieren.

Magnum IO-Bibliotheken und Deep-Learning-Integrationen

NCCL und andere Magnum IO-Bibliotheken nutzen auf transparente Weise die neuesten NVIDIA H100 GPUs, NVLink, NVSwitch und InfiniBand-Netzwerke, um erhebliche Geschwindigkeitssteigerungen für Deep Learning-Workloads zu erzielen, insbesondere für Empfehlungssysteme und das Trainieren großer Sprachmodelle.

  • Zu den Vorteilen von NCCL gehört eine schnellere Modellgenauigkeit beim Trainieren und das Erreichen einer Verbindungsbandbreite von fast 100 Prozent zwischen Servern in einer verteilten Umgebung.

  • Magnum IO GPUDirect Storage (GDS) wurde in der Data Loading Library (DALI) über den Numpy-Reader-Operator aktiviert. GDS bietet im Vergleich zu grundlegendem Numpy eine bis zu 7,2-fache Leistungssteigerung bei der Deep-Learning-Inferenz mit DALI.


Damit Forscher weiterhin die Grenzen dessen verschieben können, was mit KI möglich ist, sind hohe Leistungsfähigkeit und enorme Skalierbarkeit erforderlich. Die Kombination aus NVIDIA Quantum-2 InfiniBand-Netzwerk, NVLink, NVSwitch und dem Magnum IO-Software-Stack bietet ab dem ersten Einsatz Skalierbarkeit für Hunderttausende von Grafikprozessoren, die zusammenarbeiten.

 1,9-fache Leistungssteigerung auf LBANN mit NVSHMEM gegenüber MPI

Rendering und Visualisierung

Rendering und Visualisierung

Grafikprozessoren beschleunigen komplexe und zeitaufwendige Aufgaben für eine Reihe von Anwendungen – von On-Air-Grafiken bis hin zur stereoskopischen Echtzeitrekonstruktion von Bildern.

NVIDIA GPUDirect for Video-Technologie ermöglicht es Hardware von Drittanbietern, effizient mit NVIDIA-Grafikprozessoren zu kommunizieren und historische Latenzprobleme zu minimieren. Mit NVIDIA GPUDirect for Video sind IO-Geräte vollständig mit dem Grafikprozessor und der CPU synchronisiert, um Vervielfältigungszyklen zwischen Gerätetreibern zu minimieren.

GPUDirect Storage (GDS) lässt sich in cuCIM integrieren – ein erweiterbares Toolkit, das entwickelt wurde, um GPU-beschleunigtes IO, Computer Vision und Bildverarbeitungs-Primitives für N-dimensionale Bilder mit Fokus auf biomedizinische Bildgebung bereitzustellen.

In den folgenden beiden Beispielen wird NVIDIA IndeX® mit GDS verwendet, um die Visualisierung sehr großer Datensätze zu beschleunigen.

 Mikroskopbilder lebender Zellen mit Clara Holoscan in Echtzeit visualisieren

 Größte interaktive Volumenvisualisierung – Simulierte Landung einer Marssonde für die NASA, 150 TB

Ich möchte Neuigkeiten und Updates zu NVIDIA Magnum IO erhalten.