Inférence

Serveur d’inférence NVIDIA Triton

Déployez, exécutez et faites évoluer l’IA pour n’importe quelle application sur n’importe quelle plateforme.

Exploitez l'inférence avec toutes vos charges de travail d’IA

Exécutez des procédures d’inférence sur des modèles entraînés d’apprentissage automatique ou de Deep Learning à partir de n’importe quel framework et sur tout type de processeur (GPU, CPU ou autre) grâce au serveur d'inférence NVIDIA Triton™. Composant de la plateforme d'IA de NVIDIA et disponible via NVIDIA AI Enterprise, le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles d’IA avec toutes les charges de travail.

Déploiement, optimisation et benchmarking des LLM

Obtenez des instructions détaillées sur la manière de traiter efficacement de grands modèles de langage (LLM) avec le serveur d’inférence Triton.

Avantages du serveur d’inférence Triton

Compatibilité avec tous les frameworks d’entraînement et d’inférence

Déployez vos modèles d’IA sur n’importe quel framework majeur avec le serveur d’inférence Triton, notamment TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, custom C++ et bien plus encore.

Inférence à hautes performances sur toutes les plateformes

Maximisez le rendement et l’utilisation de vos ressources avec des fonctionnalités avancées de batching dynamique, d’exécution simultanée, de configuration optimale et de streaming audio ou vidéo. Le serveur d’inférence Triton prend en charge l’ensemble des GPU de NVIDIA, les CPU x86 et ARM ainsi que AWS Inferentia.

Philosophie open-source et conception DevOps/MLOps

Intégrez le serveur d’inférence Triton à des solutions DevOps et MLOps telles que Kubernetes pour la mise à l’échelle et Prometheus pour la supervision. Vous pouvez également l’utiliser avec les principales plateformes d’IA et de MLOps sur site ou dans le Cloud.

Fonctionnalités de sécurité, de gestion et de stabilité d'API pour les entreprises

NVIDIA AI Enterprise, qui comprend le serveur d’inférence NVIDIA Triton, est une plateforme logicielle d’IA sécurisée et prête pour la production qui a été conçue pour accélérer le délai de retour sur investissement avec des fonctionnalités avancées d’assistance, de sécurité et de stabilité d’API.

Découvrez les fonctionnalités et les outils du serveur d’inférence NVIDIA Triton

Inférence avec de grands modèles de langage

Triton fournit une faible latence et un rendement élevé pour l’inférence avec les LLM. Il prend en charge TensorRT-LLM, une bibliothèque open-source pour la définition, l’optimisation et l’exécution des LLM pour l’inférence en production.

Ensembles de modèles

Les ensembles de modèles Triton vous permettent d’exécuter des charges de travail d’IA avec une multitude de modèles, de pipelines et d’étapes de pré et post-traitement. Votre environnement Triton est ainsi en mesure d'exécuter différentes parties de l’ensemble sur CPU ou GPU et autorise le recours à de multiples frameworks au sein d’un ensemble.

NVIDIA PyTriton

PyTriton permet aux développeurs Python de mettre en œuvre Triton avec une seule ligne de code et de s’en servir pour exécuter des modèles, des fonctions de traitement simples ou des pipelines d’inférence entiers afin d’accélérer le prototypage et les tests.

Analyseur de modèles de NVIDIA Triton

L'analyseur de modèles vous permet de déterminer plus rapidement la configuration optimale pour le déploiement d’un modèle, notamment en termes de taille de batch, de précision et d’instances simultanées. Cet outil vous aide à choisir la meilleure configuration pour répondre à différents besoins en matière de latence, de rendement et de mémoire.

Adoptants majeurs dans tous les secteurs

Démarrez avec NVIDIA Triton

Ayez recours aux outils appropriés pour déployer, exécuter et faire évoluer n’importe quelle application d'IA sur n’importe quelle plateforme.

Commencez à développer avec du code ou des conteneurs

Si vous souhaitez accéder au code open-source et aux conteneurs de Triton à des fins de développement, deux options gratuites s’offrent à vous :

Utilisez du code open-source
Accédez à des logiciels open-source sur GitHub avec des exemples de bout en bout.

Téléchargez un conteneur
Faites votre choix parmi les conteneurs Linux du serveur d’inférence Triton pour x86 et Arm® sur NVIDIA NGC™.

Essayez avant d’acheter

Pour les entreprises qui souhaitent tester Triton avant d’acheter des produits NVIDIA AI Enterprise pour la production, deux options s’offrent à vous :

Sans infrastructure
Si vous ne disposez pas d'une infrastructure existante, NVIDIA vous propose des ateliers pratiques et gratuits via NVIDIA LaunchPad.

Avec infrastructure
Si vous disposez d’une infrastructure existante, NVIDIA vous propose une licence d’évaluation gratuite de 90 jours pour NVIDIA AI Enterprise.

Ressources

Top 5 des raisons pour lesquelles Triton contribue à simplifier l’inférence

Le serveur d’inférence NVIDIA Triton simplifie le déploiement en toute évolutivité des modèles d’IA pour la production, en permettant aux équipes spécialisées de déployer des modèles d’IA entraînés sur n’importe quelle infrastructure basée sur GPU ou sur GPU.

Déployez le pipeline Stable Diffusion de HuggingFace avec Triton

Cette vidéo vous explique comment déployer le pipeline Stable Diffusion disponible via la bibliothèque de diffusion fournie par HuggingFace. Dans cette vidéo de démonstration, nous utilisons le serveur d’inférence Triton pour déployer et exécuter le pipeline.

Commencez à utiliser le serveur d’inférence NVIDIA Triton

Le serveur d’inférence Triton est une solution d’inférence open-source qui standardise le déploiement des modèles et permet une mise en production rapide et évolutive de l'IA. En raison de ses nombreuses fonctionnalités, une question se pose naturellement : par où commencer ? Regardez notre vidéo pour tout savoir.

Guide de démarrage rapide

Vous débutez avec le serveur d’inférence Triton et vous souhaitez déployer votre modèle plus rapidement ? Utilisez ce guide de démarrage rapide pour commencer à utiliser le plein potentiel de Triton.

Didacticiels

La mise en service de Triton peut soulever de nombreuses questions. Explorez ce dépôt pour vous familiariser avec les fonctionnalités de Triton et trouvez des guides et des exemples qui peuvent faciliter votre migration.

NVIDIA LaunchPad

Suivez nos ateliers pratiques pour mettre en œuvre votre initiative d'IA de manière rapide et évolutive grâce au serveur d’inférence NVIDIA Triton. Vous allez pouvoir exploiter immédiatement tous les avantages de l’infrastructure de calcul accéléré de NVIDIA et faire évoluer vos charges de travail d’IA.

Suivez l'actualité de l'IA

Consultez les dernières mises à jour et annonces relatives au serveur d'inférence Triton.

Lisez nos articles techniques

Consultez nos présentations techniques pour savoir comment démarrer avec l’inférence.

Enrichissez vos connaissances

Obtenez des astuces et des conseils sur le déploiement, l’exécution et la mise à l’échelle des modèles d’IA pour l’inférence dans des domaines comme l’IA générative, les LLM, les systèmes de recommandation, la vision par ordinateur et bien plus encore.

Déploiement, optimisation et benchmarking des LLM

Traitez efficacement vos LLM avec le serveur d’inférence Triton en suivant des instructions détaillées. Nous vous expliquerons comment déployer facilement un LLM sur plusieurs backends tout en comparant leurs performances, mais aussi comment paramétrer avec précision vos configurations de déploiement pour obtenir des performances optimales.

Faites passer les cas d’utilisation de l’IA du développement à la production

Obtenez plus d’informations sur l’inférence des modèles d'IA, sur les principaux défis du déploiement de l’IA dans les entreprises et sur les différents avantages d'une solution d'inférence Full-Stack pour l'IA, mais aussi sur le déploiement de votre première solution d’inférence dédiée à l'IA.

Exploitez le plein potentiel des solutions d’inférence IA dans le Cloud

Découvrez comment la plateforme d’inférence IA de NVIDIA s’intègre en toute transparence aux principales solutions des fournisseurs de services Cloud pour simplifier le déploiement et accélérer la mise en œuvre des cas d’utilisation de l’IA reposant sur les LLM.

Oracle Cloud

NVIDIA Triton accélère l’inférence sur Oracle Cloud

Découvrez comment les services de vision par ordinateur et de science des données d'Oracle Cloud Infrastructure permettent d'accélérer les prévisions alimentées par l'IA avec le serveur d'inférence NVIDIA Triton.

ControlExpert

Révolutionnez la gestion des sinistres automobiles

Apprenez comment l'entreprise ControlExpert s’est tournée vers les solutions d’IA de NVIDIA pour développer une solution de gestion des sinistres de bout en bout qui permet à ses clients de bénéficier d’un service après-vente en continu.

Wealthsimple

Accélération de l’inférence et de la livraison de modèles d’apprentissage automatique

Découvrez comment Wealthsimple a utilisé la plateforme d’inférence IA de NVIDIA pour réduire le délai de déploiement des modèles d'IA de plusieurs mois à 15 minutes seulement.

Forum en ligne Triton

Rejoignez la communauté en ligne de NVIDIA Triton pour y poser des questions pratiques, consulter des recommandations, interagir avec d’autres développeurs et signaler des bugs.

Programme NVIDIA Développeurs

Connectez-vous à des millions de développeurs qui partagent les mêmes idées que vous et accédez à des centaines de conteneurs, de modèles et de SDK accélérés par GPU (autant d’outils nécessaires pour concevoir avec succès des applications novatrices reposant sur la technologie de NVIDIA), grâce au programme de NVIDIA pour les développeurs.

Accélérez votre startup

Découvrez NVIDIA Inception, le programme gratuit pour les startups de pointe, et son offre d'assistance marketing, d'expertise technique, de formations exclusives et d'opportunités de financement.