Inferenz

NVIDIA Triton Inference Server

KI für jede beliebige Anwendung auf jeder beliebigen Plattform bereitstellen, ausführen und skalieren.

Inferenz für jede KI-Workload

Mit dem NVIDIA Triton™ Inference Server können Sie Inferenz an trainierten Modellen für maschinelles Lernen oder Deep Learning aus jedem beliebigen Framework auf jedem beliebigen Prozessor – Grafikprozessor, CPU oder Sonstiges – ausführen. Triton Inference Server ist Teil der KI-Plattform von NVIDIA und verfügbar mit NVIDIA AI Enterprise Es ist eine Open-Source-Software, die die Bereitstellung und Ausführung von KI-Modellen für jede Workload standardisiert.

Bereitstellung, Optimierung und Benchmarking von LLMs

Schritt-für-Schritt-Anleitungen zur effizienten Bereitstellung großer Sprachmodelle (LLMs) mit Triton Inference Server.

Die Vorteile von Triton Inference Server

Unterstützt alle Frameworks für Training und Inferenz

Bereitstellung von KI-Modellen auf jedem wichtigen Framework mit Triton Inference Server – einschließlich TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, Custom C++ und mehr.

Hochleistungs-Inferenz auf jeder beliebigen Plattform

Maximieren Sie den Durchsatz und die Auslastung mit dynamischem Batching, simultaner Ausführung, optimaler Konfiguration sowie Audio- und Video-Streaming. Triton Inference Server unterstützt alle NVIDIA-Grafikprozessoren, x86- und Arm-CPUs sowie AWS Inferentia.

Quelloffen und entwickelt für DevOps und MLOps

Integrieren Sie Triton Inference Server in DevOps- und MLOps-Lösungen wie Kubernetes zur Skalierung und Prometheus zur Überwachung. Außerdem kann die Lösung auf allen wichtigen Cloud- und lokalen KI- und MLOps- Plattformen verwendet werden.

Sicherheit, Verwaltbarkeit und API-Stabilität auf Unternehmensniveau

NVIDIA AI Enterprise, einschließlich NVIDIA Triton Inference Server, ist eine sichere, produktionsbereite KI-Softwareplattform, die darauf ausgelegt ist, die Wertschöpfung durch Support, Sicherheit und API-Stabilität zu beschleunigen.

Entdecken Sie die Funktionen und Tools des NVIDIA Triton Inference Server

Inferenz für große Sprachmodelle

Triton bietet eine niedrige Latenz und einen hohen Durchsatz für die Inferenz mit großen Sprachmodellen (Large Language Models, LLM). Es unterstützt TensorRT-LLMs, eine Open-Source-Bibliothek zum Definieren, Optimieren und Ausführen von LLMs für die Inferenz in der Produktion.

Modell-Ensembles

Triton Modell-Ensembles ermöglicht Ihnen die Ausführung von KI-Workloads mit mehreren Modellen, Pipelines sowie Vor- und Nachverarbeitungsschritten. Es können verschiedene Teile des Ensembles auf der CPU oder dem Grafikprozessor ausgeführt werden und unterstützt somit mehrere Frameworks innerhalb des Ensembles.

NVIDIA PyTriton

PyTriton ermöglicht Python-Entwicklern, Triton mit einer einzigen Codezeile aufzurufen und es zur Bereitstellung von Modellen, einfachen Verarbeitungsfunktionen oder ganzen Inferenzpipelines zu verwenden, um Prototyping und Tests zu beschleunigen.

NVIDIA Triton Model Analyzer

Der Model Analyzer reduziert die Zeit, die benötigt wird, um die optimale Konfiguration für die Modellbereitstellung zu finden, z. B. für Batchgröße, Präzision und Instanzen für simultane Ausführung. Er hilft bei der Auswahl der optimalen Konfiguration, um Anwendungslatenz, Durchsatz und Speicheranforderungen zu erfüllen.

Führende Anwender in allen Branchen

Erste Schritte mit NVIDIA Triton

Nutzen Sie die richtigen Tools, um KI für verschiedenste Anwendungen auf sämtlichen Plattformen bereitzustellen, auszuführen und zu skalieren.

Beginnen Sie mit der Entwicklung via Code oder Container

Für diejenigen, die für die Entwicklung auf den Open-Source-Code und die Container von Triton zugreifen möchten, gibt es zwei kostenlose Einstiegsmöglichkeiten:

Open-Source-Code verwenden
Greifen Sie auf Open-Source-Software mit End-to-End-Beispielen auf GitHub zu.

Einen Container herunterladen
Greifen Sie auf Linux-basierte Triton Inference Server-Container für x86 und Arm® auf NVIDIA NGC™ zu.

Erst testen, dann kaufen

Für Unternehmen, die Triton testen möchten, bevor sie NVIDIA AI Enterprise für die Produktion kaufen, gibt es zwei kostenlose Einstiegsoptionen:

Ohne Infrastruktur
Für diejenigen, die keine vorhandene Infrastruktur haben, bietet NVIDIA kostenlose Praxiskurse über NVIDIA LaunchPad an.

Mit Infrastruktur
Für diejenigen mit vorhandener Infrastruktur bietet NVIDIA eine kostenlose Evaluierungslizenz an, um NVIDIA AI Enterprise für 90 Tage zu testen.

Ressourcen

Die wichtigsten 5 Gründe, warum Triton die Inferenz vereinfacht

Der NVIDIA Triton Inference Server vereinfacht die Bereitstellung von KI-Modellen in der Produktion im großen Stil, sodass Teams trainierte KI-Modelle aus jedem Framework aus einem lokalen Speicher oder einer Cloud-Plattform auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen können. 

Bereitstellung der Stable Diffusion-Pipeline von HuggingFace mit Triton

In diesem Video wird die Bereitstellung der Stable Diffusion-Pipeline veranschaulicht, die über die HuggingFace-Diffuser-Bibliothek verfügbar ist. Wir verwenden Triton Inference Server, um die Pipeline bereitzustellen und auszuführen.

Erste Schritte mit NVIDIA Triton Inference Server

Triton Inference Server ist eine Open-Source-Inferenzlösung, die die Modellbereitstellung standardisiert und schnelle und skalierbare KI in der Produktion ermöglicht. Angesichts der vielen Funktionen stellt sich natürlich die Frage: Wo fange ich an? Sehen Sie sich das Video an und finden Sie es heraus.

Kurzanleitung

Sie nutzen Triton Inference Server zum ersten Mal und möchten Ihr Modell schnell bereitstellen? Beginnen Sie Ihre Triton-Reise mit dieser Kurzanleitung.

Tutorials

Bei den ersten Schritten mit Triton können viele Fragen auftauchen. Erkunden Sie dieses Repository, um sich mit den Funktionen von Triton vertraut zu machen und Leitfäden und Beispiele zu sehen, die Ihnen die Migration erleichtern können.

NVIDIA LaunchPad

Sie können in Praxisübungen schnelle und skalierbare KI mit NVIDIA Triton Inference Server erleben. Sie können sofort die Vorteile der beschleunigten Computing-Infrastruktur von NVIDIA nutzen und Ihre KI-Workloads skalieren.

Aktuelle Infos erhalten

Lesen Sie mehr über die neuesten Updates und Ankündigungen zu Triton Inference Server.

Technische Blogs entdecken

Lesen Sie technische Anleitungen zu den ersten Schritten mit Inferenzen.

Alle Infos im Detail

Hier erhalten Sie Tipps und Best Practices für die Bereitstellung, Ausführung und Skalierung von KI-Modellen für Inferenz für generative KI, LLMs, Empfehlungssysteme, Computer Vision und mehr.

Bereitstellung, Optimierung und Benchmarking von LLMs

Erhalten Sie Schritt-für-Schritt-Anleitungen, wie Sie LLMs mithilfe von Triton Inference Server effizient bereitstellen. Wir behandeln, wie Sie ein LLM ganz einfach auf mehreren Backends bereitstellen und deren Performance vergleichen. Außerdem erfahren Sie, wie Sie Bereitstellungskonfigurationen für eine optimale Performance verbessern.

Move Enterprise AI Use Cases From Development to Production

Erfahren Sie, was KI-Inferenz ist, wie sie in die KI-Bereitstellungsstrategie Ihres Unternehmens passt, die wichtigsten Herausforderungen bei der Bereitstellung von KI-Anwendungsfällen auf Unternehmensniveau, warum eine Full-Stack-KI-Inferenzlösung erforderlich ist, um diese Herausforderungen zu bewältigen, die Hauptkomponenten eines Full-Stacks und wie Sie Ihre erste KI-Inferenzlösung bereitstellen.

Nutzen Sie das Potenzial von cloudfähigen KI-Inferenzlösungen

Erfahren Sie, wie sich die NVIDIA AI-Inferenzplattform nahtlos in führende Cloud-Service-Anbieter integrieren lässt, wodurch die Bereitstellung vereinfacht und die Einführung von LLM-gestützten KI-Anwendungsfällen beschleunigt wird.

Oracle Cloud

NVIDIA Triton beschleunigt Inferenz in Oracle Cloud

Erfahren Sie, wie die Computer Vision- und Data Science-Services von Oracle Cloud Infrastructure KI-Prognosen mit NVIDIA Triton Inference Server beschleunigen.

ControlExpert

Revolutionierung des Kfz-Schadenmanagements

Erfahren Sie, wieso ControlExpert auf NVIDIA AI setzt, um eine End-to-End-Lösung für das Schadensmanagement zu entwickeln, mit der Kunden einen Rund-um-die-Uhr-Service erhalten.

Wealthsimple

Modellbereitstellung und -inferenz durch maschinelles Lernen beschleunigen

Erfahren Sie, wie Wealthsimple mit der KI-Inferenzplattform von NVIDIA die Dauer der Modellbereitstellung von mehreren Monaten auf nur 15 Minuten reduziert hat.

Triton-Onlineforum

Entdecken Sie die Online-Community für NVIDIA Triton Inference Server. Hier finden Sie Antworten auf Fragen, lernen Best Practices kennen, können sich mit anderen Entwicklern austauschen und Fehler melden.

NVIDIA-Entwicklerprogramm

Verbinden Sie sich mit Millionen gleichgesinnter Entwickler und erhalten Sie über das NVIDIA-Entwicklerprogramm Zugriff auf Hunderte von GPU-beschleunigten Containern, Modellen und SDKs – also auf alles, was Sie zur erfolgreichen Entwicklung von Apps mit NVIDIA-Technologie benötigen.

Beschleunigen Sie Ihr Start-up

NVIDIA Inception ist ein kostenloses Programm für innovative Start-ups. Es bietet Zugang zu Unterstützung bei der Markteinführung, technischem Know-how, Schulungen und Finanzierungsmöglichkeiten.