Inferencia

Servidor de inferencia NVIDIA Triton

Implemente, ejecute y escale la IA para cualquier aplicación en cualquier plataforma.

Video | Informe técnico | Para desarrolladores

Inferencia para todas las cargas de trabajo de IA

Ejecute la inferencia en modelos de aprendizaje automático o deep learning entrenados desde cualquier entorno en cualquier procesador (GPU, CPU u otro) con el servidor de inferencia NVIDIA Triton™. Como parte de la plataforma de IA de NVIDIA y disponible con NVIDIA AI Enterprise, el servidor de inferencia Triton es un software de código abierto que estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo.

Implementación, optimización y evaluación comparativa de LLM

Obtenga instrucciones paso a paso sobre cómo ofrecer modelos lingüísticos de gran tamaño de forma eficiente con el servidor de inferencia Triton.

Ver sesión

Ventajas del servidor de inferencia Triton

Compatible con todos los entornos de entrenamiento e inferencia

Implemente modelos de IA en cualquier entorno principal con el servidor de inferencia Triton, incluidos TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, Scikit-learn RandomForest, OpenVINO y C++ personalizado, entre otros.

Inferencia de alto rendimiento en cualquier plataforma

Maximice el rendimiento y el uso con el procesamiento por lotes dinámico, la ejecución simultánea, la configuración óptima y la transmisión de audio y vídeo. El servidor de inferencia Triton es compatible con todas las GPU NVIDIA, CPU x86 y Arm, así como con AWS Inferentia.

Código abierto y diseñado para DevOps y MLOps

Integre el servidor de inferencia Triton en soluciones DevOps y MLOps, como Kubernetes para escalar y Prometheus para supervisar. También se puede utilizar en las principales plataformas de IA y MLOps, tanto en la nube como en las instalaciones.

Seguridad de nivel empresarial, administración y estabilidad de la API

NVIDIA AI Enterprise, que incluye el servidor de inferencia NVIDIA Triton, es una plataforma de software de IA segura y preparada para la producción. Está diseñada para acelerar el tiempo de obtención de valor con asistencia, seguridad y estabilidad de la API.

Explore las funciones y herramientas del servidor de inferencia NVIDIA Triton

Inferencia del modelo lingüístico de gran tamaño

Triton ofrece baja latencia y alto rendimiento para la inferencia de modelos lingüísticos de gran tamaño. Es compatible con TensorRT-LLM, una biblioteca de código abierto para definir, optimizar y ejecutar LLM para la inferencia en producción.

Conjuntos de modelos

Los Conjuntos de modelos Triton te permiten ejecutar cargas de trabajo de IA con varios modelos, canalizaciones y pasos de preprocesamiento y posprocesamiento. Además, permite la ejecución de diferentes partes del conjunto en CPU o GPU y es compatible con varios entornos dentro del conjunto.

NVIDIA PyTriton

PyTriton permite a los desarrolladores de Python incluir Triton con una sola línea de código y utilizarla para ofrecer modelos, funciones de procesamiento sencillas o canalizaciones de inferencia completas para acelerar la creación de prototipos y las pruebas.

Analizador de modelos NVIDIA Triton

El Analizador de modelos reduce el tiempo necesario para buscar la configuración de implementación de modelos óptima, como el tamaño del lote, la precisión y las instancias de ejecución simultánea. Ayuda a seleccionar la configuración óptima para satisfacer los requisitos de latencia, rendimiento y memoria de la aplicación.

Principales clientes en todos los sectores

Cliente
Integraciones del ecosistema

Primeros pasos con NVIDIA Triton

Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA en cualquier aplicación y plataforma.

Empiece a desarrollar con código o contenedores

Las personas que deseen acceder al código abierto y los contenedores de Triton para el desarrollo tienen dos opciones para empezar de forma gratuita:

Usar código abierto
Acceda al software de código abierto en GitHub con ejemplos integrales.

Ver repositorio de GitHub

Descargar un contenedor
Acceda a los contenedores del servidor de inferencia Triton basados en Linux para x86 y Arm® en NVIDIA NGC™.

Extraer contenedor

Probar antes de comprar

Las empresas que deseen probar Triton antes de comprar NVIDIA AI Enterprise para la producción disponen de dos opciones para empezar de forma gratuita:

Sin infraestructura
Para aquellos que no disponen de infraestructura, NVIDIA ofrece laboratorios prácticos gratuitos a través de NVIDIA LaunchPad.

Accede a los
laboratorios prácticos

Con infraestructura
Para aquellos que disponen de infraestructura, NVIDIA ofrece una licencia de evaluación gratuita para probar NVIDIA AI Enterprise durante 90 días.

Solicitar una prueba
de 90 días

Comparar opciones para empezar

Recursos

Las 5 razones principales por las que Triton simplifica la inferencia

El servidor de inferencia NVIDIA Triton simplifica la implementación de modelos de IA a escala en producción, lo que permite a los equipos implementar modelos de IA entrenados desde cualquier entorno de trabajo del almacenamiento local o la plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Ver ahora

Implemente la canalización de Stable Diffusion de HuggingFace con Triton

Este vídeo muestra la implementación de la canalización de Stable Diffusion disponible a través de la biblioteca de difusores HuggingFace. Utilizamos el servidor de inferencia Triton para implementar y ejecutar la canalización.

Ver ahora

Primeros pasos con el servidor de inferencia NVIDIA Triton

El servidor de inferencia Triton es una solución de inferencia de código abierto que estandariza la implementación de modelos y permite una IA rápida y escalable en producción. Dado que tiene muchas funciones, es normal preguntarse por dónde empezar. Para descubrirlo, tendrá que ver el vídeo.

Ver ahora

Guía de inicio rápido

¿No está familiarizado con el servidor de inferencia Triton y quiere implementar su modelo rápidamente? Utilice esta guía de inicio rápido para comenzar su recorrido con Triton.

Leer ahora

Tutoriales

Los primeros pasos con Triton pueden originar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Triton y buscar guías y ejemplos que faciliten la migración.

Leer ahora

NVIDIA LaunchPad

En los laboratorios prácticos, experimentará una IA rápida y escalable con el servidor de inferencia NVIDIA Triton. Podrá desbloquear inmediatamente las ventajas de la infraestructura de computación acelerada de NVIDIA y escalar sus cargas de trabajo de IA.

Explorar

Reciba las últimas noticias

Infórmese sobre las actualizaciones y los anuncios de inferencia más recientes del servidor de inferencia Triton.

Ver todos los blogs de Triton

Explore blogs técnicos

Lea tutoriales técnicos sobre cómo dar los primeros pasos con la inferencia.

Ver todos los blogs técnicos de LLM

Profundice

Obtenga consejos y prácticas recomendadas para implementar, ejecutar y escalar modelos de IA para la inferencia de IA generativa, LLM, sistemas de recomendación, visión computarizada y mucho más.

Leer ahora

Implementación, optimización y evaluación comparativa de LLM

Descubra cómo ofrecer LLM de forma eficiente con el servidor de inferencia Triton mediante instrucciones paso a paso. Hablaremos sobre cómo implementar fácilmente un LLM en varios backends y comparar su rendimiento, además de cómo ajustar las configuraciones de implementación para obtener un rendimiento óptimo.

Ver sesión de la GTC bajo demanda

Mover los casos de uso de IA empresarial del desarrollo a la producción

Descubra qué es la inferencia de IA, cómo se adapta a la estrategia de implementación de IA de su empresa, los retos clave de la implementación de casos de uso de IA de nivel empresarial, los motivos por los que se necesita una solución de inferencia de IA de pila completa para abordar dichos retos, los componentes principales de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.

Ver sesión bajo demanda

Aproveche la potencia de las soluciones de inferencia de IA preparadas para la nube

Explore cómo la plataforma de inferencia de IA de NVIDIA se integra a la perfección con los principales proveedores de servicios en la nube, lo que simplifica la implementación y acelera el lanzamiento de casos de uso de IA con tecnología LLM.

Ver sesión bajo demanda

Oracle Cloud

NVIDIA Triton acelera la inferencia en Oracle Cloud

Descubra cómo los servicios de visión computarizada y ciencia de datos de Oracle Cloud Infrastructure mejoran la velocidad de las predicciones de IA con el servidor de inferencia NVIDIA Triton.

Más información

ControlExpert

Revolucionar la gestión de reclamaciones de automóviles

Descubra cómo ControlExpert ha recurrido a la IA de NVIDIA para desarrollar una solución de gestión de reclamaciones de extremo a extremo que permite a sus clientes recibir un servicio ininterrumpido.

Más información

Wealthsimple

Acelerar la entrega e inferencia de modelos de aprendizaje automático

Descubra cómo Wealthsimple ha utilizado la plataforma de inferencia de IA de NVIDIA para reducir con éxito la duración de la implementación de sus modelos, de varios meses a solo 15 minutos.

Más información

Explorar más casos de éxito

Foro en línea de Triton

Explore la comunidad en línea del servidor de inferencia NVIDIA Triton, donde puede consultar preguntas sobre procedimiento, aprender las prácticas recomendadas, relacionarse con otros desarrolladores y notificar errores.

Unirse a la comunidad

Programa de desarrolladores de NVIDIA

Conecte con millones de desarrolladores afines y acceda a cientos de contenedores, modelos y SDK acelerados por GPU, es decir, a todas las herramientas necesarias para crear aplicaciones con tecnología NVIDIA con éxito. Todo ello, a través del Programa de desarrolladores de NVIDIA.

Unirse al programa de desarrolladores

Acelerar la creación de su startup

NVIDIA Inception es un programa gratuito para nuevas empresas de vanguardia que ofrece acceso crítico a soporte de salida al mercado, experiencia técnica, formación y oportunidades de financiación.

Obtener más información y enviar solicitud

Pasos siguientes

¿Todo listo para empezar?

Utilice las herramientas adecuadas para implementar, ejecutar y escalar la IA en cualquier aplicación y plataforma, o bien explore más recursos de desarrollo.

Contactar con nosotros

Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase piloto a la de producción con la seguridad, estabilidad de la API y soporte de NVIDIA AI Enterprise.

Contacto

Obtenga las últimas noticias sobre el servidor de inferencia NVIDIA Triton

Suscríbase para obtener las últimas noticias, actualizaciones y mucho más de NVIDIA.

Manténgase al día