Inferencia

Servidor de inferencia NVIDIA Triton

Implemente, ejecute y escale la IA para cualquier aplicación en cualquier plataforma.

Inferencia para todas las cargas de trabajo de IA

Ejecute la inferencia en modelos de aprendizaje automático o deep learning entrenados desde cualquier entorno en cualquier procesador (GPU, CPU u otro) con el servidor de inferencia NVIDIA Triton™. Como parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el servidor de inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo.

Implementación, optimización y evaluación comparativa de LLM

Obtenga instrucciones paso a paso sobre cómo ofrecer modelos lingüísticos de gran tamaño de forma eficiente con el servidor de inferencia Triton.

Ventajas del servidor de inferencia Triton

Compatible con todos los entornos de entrenamiento e inferencia

Implemente modelos de IA en cualquier entorno principal con el servidor de inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, Scikit-learn RandomForest, OpenVINO y C++ personalizado, entre otros.

Inferencia de alto rendimiento en cualquier plataforma

Maximice el rendimiento y el uso con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El servidor de inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm, así como con AWS Inferentia.

Código abierto y diseñado para DevOps y MLOps

Integre el servidor de inferencia Triton en soluciones DevOps y MLOps, como Kubernetes para escalar y Prometheus para supervisar. También se puede utilizar en las principales plataformas de IA y MLOps, tanto en la nube como en las instalaciones.

Seguridad de nivel empresarial, administración y estabilidad de la API

NVIDIA AI Enterprise, que incluye el servidor de inferencia NVIDIA Triton, es una plataforma de software de IA segura y preparada para la producción. Está diseñada para acelerar el tiempo de obtención de valor con asistencia, seguridad y estabilidad de la API.

Explore las funciones y herramientas del servidor de inferencia NVIDIA Triton

Inferencia del modelo lingüístico de gran tamaño

Triton ofrece baja latencia y alto rendimiento para la inferencia de modelos lingüísticos de gran tamaño. Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para la inferencia en producción.

Conjuntos de modelos

Los Conjuntos de modelos Triton te permiten ejecutar cargas de trabajo de IA con varios modelos, canalizaciones y pasos de preprocesamiento y posprocesamiento. Además, permite la ejecución de diferentes partes del conjunto en CPU o GPU y es compatible con varios entornos dentro del conjunto.

NVIDIA PyTriton

PyTriton permite a los desarrolladores de Python incluir Triton con una sola línea de código y utilizarla para ofrecer modelos, funciones de procesamiento sencillas o canalizaciones de inferencia completas para acelerar la creación de prototipos y las pruebas.

Analizador de modelos NVIDIA Triton

El Analizador de modelos reduce el tiempo necesario para buscar la configuración de implementación de modelos óptima, como el tamaño del lote, la precisión y las instancias de ejecución simultánea. Ayuda a seleccionar la configuración óptima para satisfacer los requisitos de latencia, rendimiento y memoria de la aplicación.

Principales clientes en todos los sectores

Primeros pasos con NVIDIA Triton

Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA en cualquier aplicación y plataforma.

Empiece a desarrollar con código o contenedores

Las personas que deseen acceder al código abierto y los contenedores de Triton para el desarrollo tienen dos opciones para empezar de forma gratuita:

Usar código abierto
Acceda al software de código abierto en GitHub con ejemplos integrales.

Descargar un contenedor
Acceda a los contenedores del servidor de inferencia Triton basados en Linux para x86 y Arm® en NVIDIA NGC™.

Probar antes de comprar

Las empresas que deseen probar Triton antes de comprar NVIDIA AI Enterprise para la producción disponen de dos opciones para empezar de forma gratuita:

Sin infraestructura
Para aquellos que no disponen de infraestructura, NVIDIA ofrece laboratorios prácticos gratuitos a través de NVIDIA LaunchPad.

Con infraestructura
Para aquellos que disponen de infraestructura, NVIDIA ofrece una licencia de evaluación gratuita para probar NVIDIA AI Enterprise durante 90 días.

Recursos

Las 5 razones principales por las que Triton simplifica la inferencia

El servidor de inferencia NVIDIA Triton simplifica la implementación de modelos de IA a escala en producción, lo que permite a los equipos implementar modelos de IA entrenados desde cualquier entorno de trabajo del almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU. 

Implemente la canalización de Stable Diffusion de HuggingFace con Triton

Este vídeo muestra la implementación de la canalización de Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Utilizamos el servidor de inferencia Triton para implementar y ejecutar la canalización.

Primeros pasos con el servidor de inferencia NVIDIA Triton

El servidor de inferencia Triton es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Dado que tiene muchas funciones, es normal preguntarse por dónde empezar. Para descubrirlo, tendrá que ver el vídeo.

Guía de inicio rápido

¿No está familiarizado con el servidor de inferencia Triton y quiere implementar su modelo rápidamente? Utilice esta guía de inicio rápido para comenzar su recorrido con Triton.

Tutoriales

Los primeros pasos con Triton pueden originar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Triton y buscar guías y ejemplos que faciliten la migración.

NVIDIA LaunchPad

En los laboratorios prácticos, experimentará una IA rápida y escalable con el servidor de inferencia NVIDIA Triton. Podrá desbloquear inmediatamente las ventajas de la infraestructura de computación acelerada de NVIDIA y escalar sus cargas de trabajo de IA.

Reciba las últimas noticias

Infórmese sobre las actualizaciones y los anuncios de inferencia más recientes del servidor de inferencia Triton.

Explore blogs técnicos

Lea tutoriales técnicos sobre cómo dar los primeros pasos con la inferencia.

Profundice

Obtenga consejos y prácticas recomendadas para implementar, ejecutar y escalar modelos de IA para la inferencia de IA generativa, LLM, sistemas de recomendación, visión computarizada y mucho más.

Implementación, optimización y evaluación comparativa de LLM

Descubra cómo ofrecer LLM de forma eficiente con el servidor de inferencia Triton mediante instrucciones paso a paso. Hablaremos sobre cómo implementar fácilmente un LLM en varios backends y comparar su rendimiento, además de cómo ajustar las configuraciones de implementación para obtener un rendimiento óptimo.

Mover los casos de uso de IA empresarial del desarrollo a la producción

Descubra qué es la inferencia de IA, cómo se adapta a la estrategia de implementación de IA de su empresa, los retos clave de la implementación de casos de uso de IA de nivel empresarial, los motivos por los que se necesita una solución de inferencia de IA de pila completa para abordar dichos retos, los componentes principales de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.

Aproveche la potencia de las soluciones de inferencia de IA preparadas para la nube

Explore cómo la plataforma de inferencia de IA de NVIDIA se integra a la perfección con los principales proveedores de servicios en la nube, lo que simplifica la implementación y acelera el lanzamiento de casos de uso de IA con tecnología LLM.

Oracle Cloud

NVIDIA Triton acelera la inferencia en Oracle Cloud

Descubra cómo los servicios de visión computarizada y ciencia de datos de Oracle Cloud Infrastructure mejoran la velocidad de las predicciones de IA con el servidor de inferencia NVIDIA Triton.

ControlExpert

Revolucionar la gestión de reclamaciones de automóviles

Descubra cómo ControlExpert ha recurrido a la IA de NVIDIA para desarrollar una solución de gestión de reclamaciones de extremo a extremo que permite a sus clientes recibir un servicio ininterrumpido.

Wealthsimple

Acelerar la entrega e inferencia de modelos de aprendizaje automático

Descubra cómo Wealthsimple ha utilizado la plataforma de inferencia de IA de NVIDIA para reducir con éxito la duración de la implementación de sus modelos, de varios meses a solo 15 minutos.

Foro en línea de Triton

Explore la comunidad en línea del servidor de inferencia NVIDIA Triton, donde puede consultar preguntas sobre procedimiento, aprender las prácticas recomendadas, relacionarse con otros desarrolladores y notificar errores.

Programa de desarrolladores de NVIDIA

Conecte con millones de desarrolladores afines y acceda a cientos de contenedores, modelos y SDK acelerados por GPU, es decir, a todas las herramientas necesarias para crear aplicaciones con tecnología NVIDIA con éxito. Todo ello, a través del Programa de desarrolladores de NVIDIA.

Acelerar la creación de su startup

NVIDIA Inception es un programa gratuito para nuevas empresas de vanguardia que ofrece acceso crítico a soporte de salida al mercado, experiencia técnica, formación y oportunidades de financiación.