SERVIDOR DE INFERÊNCIA NVIDIA TRITON

O Servidor de Inferência NVIDIA Triton™ é um software de serviço de inferência de código aberto que ajuda a padronizar a implantação e a execução do modelo e oferece AI rápida e escalável na produção.

COMEÇAR

O que é o NVIDIA Triton?

O Servidor de Inferência Triton simplifica a inferência da AI, permitindo que as equipes implantem, executem e dimensionem modelos de AI treinados a partir de qualquer framework em qualquer infraestrutura baseada em GPU ou CPU. Ele oferece aos pesquisadores de AI e cientistas de dados a liberdade de escolher o framework certo para seus projetos sem afetar a implantação da produção. Ele também ajuda os desenvolvedores a fornecer inferência de alto desempenho no cloud, no local, no edge e em dispositivos incorporados.

Compatibilidade com Vários Frameworks

El Servidor de Inferencia Triton es compatible con todos los principales frameworks como TensorFlow, NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, RAPIDS FIL (para XGBoost, scikit-learn, etc.), OpenVINO, C++ personalizado y más.

Inferência de Alto Desempenho

O Triton suporta todas as inferências baseadas em CPU NVIDIA, x86 e ARM®. Ele oferece recursos como lotes dinâmicos, execução simultânea, configuração de modelo ideal, conjunto de modelos e entradas de streaming para maximizar o rendimento e a utilização.

Projetado para DevOps e MLOps

O Triton se integra ao Kubernetes para orquestração e dimensionamento, exporta métricas do Prometheus para monitoramento, oferece suporte a atualizações de modelos ao vivo e pode ser usado em todas as principais plataformas de AI e Kubernetes de cloud público. Também está integrado em muitas soluções de software MLOPS.

Acelere Sua Jornada de AI com o NVIDIA LaunchPad

Experimente o Servidor de Inferência Triton e outros softwares de AI da NVIDIA por meio de laboratórios gratuitos selecionados em infraestrutura hospedada.

COMEÇAR

Integrações de Ecossistemas com o NVIDIA Triton

A AI está impulsionando a inovação em empresas de todos os tamanhos e escalas. Uma solução de software de código aberto, o Triton é a melhor escolha para inferência de IA e implantação de modelos. Triton é compatível com Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS) e Azure Machine Learning. Descubra por que as empresas usam o Triton.

Recursos de Inferência de AI da NVIDIA

Simplifique a Implantação de AI em Escala

Simplifique a Implantação de AI em Escala

Simplifique a implantação de modelos de AI em escala na produção. Saiba como o Triton enfrenta os desafios de implantação de modelos de AI e revise as etapas para começar.

FAÇA DOWNLOAD DA VISÃO GERAL
Assista a Sessões On Demand

Assista a Sessões On Demand

Confira as últimas sessões on demand do Servidor de Inferência Triton no NVIDIA GTC.

ASSISTA AGORA
Implante Modelos de Deep Learning de AI

Implante Modelos de Deep Learning de AI

Receba as últimas notícias e atualizações e saiba mais sobre as principais vantagens no Blog Técnico da NVIDIA.

LEIA OS BLOGS
Leia a Documentação do Produto

Leia a Documentação do Produto

Veja o que há de novo e saiba mais sobre os recursos mais recentes nas notas de versão do Triton.

LEIA NO GITHUB

AI Rápida e Escalável em Todas as Aplicações

O Servidor de Inferência NVIDIA Triton oferece alta taxa de transferência de inferência:

O Triton executa vários modelos da mesma ou de diferentes frameworks simultaneamente em uma única GPU ou CPU. Em um servidor multi-GPU, o Triton cria automaticamente uma instância de cada modelo em cada GPU para aumentar a utilização.

Ele também otimiza o serviço para inferência em tempo real sob restrições estritas de latência, suporta inferência em lote para maximizar a utilização de GPU e CPU e inferência de streaming com suporte integrado para entrada de streaming de áudio e vídeo. O Triton oferece suporte ao conjunto de modelos para casos de uso que exigem vários modelos para realizar inferência de ponta a ponta, como AI conversacional.

Os modelos podem ser atualizados ao vivo na produção sem reiniciar o Triton ou a aplicação. O Triton permite inferência multi-GPU e multi-nó em modelos muito grandes que não cabem em uma única memória de GPU.

O Servidor de Inferência NVIDIA Triton oferece alta taxa de transferência de inferência

NVIDIA Triton Inference Server delivers high scalable inference.

O Servidor de Inferência NVIDIA Triton oferece inferência altamente escalável:

Também disponível como um contêiner do Docker, o Triton se integra ao Kubernetes para orquestração, métricas e dimensionamento automático. O Triton também se integra aos pipelines Kubeflow e Kubeflow para um workflow de AI de ponta a ponta e exporta métricas do Prometheus para monitorar a utilização da GPU, latência, uso de memória e taxa de transferência de inferência. Ele suporta a interface HTTP/gRPC padrão para conectar-se a outras aplicações, como balanceadores de carga, e pode ser facilmente dimensionado para qualquer número de servidores para lidar com cargas de inferência crescentes para qualquer modelo.

O Triton pode servir dezenas ou centenas de modelos por meio de uma API de controle de modelos. Os modelos podem ser carregados e descarregados dentro e fora do servidor de inferência com base nas alterações para caber na memória da GPU ou CPU. O suporte a um cluster heterogêneo com GPUs e CPUs ajuda a padronizar a inferência entre plataformas e dimensiona dinamicamente para qualquer CPU ou GPU para lidar com cargas de pico.

Principais Características do Triton

Backend da Forest Inference Library (FIL) do Triton

O novo back-end da Forest Inference Library (FIL) fornece suporte para inferência de alto desempenho de modelos baseados em árvore com explicabilidade (valores Shapley) em CPUs e GPUs. Ele suporta modelos de XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest e outros no formato Treelite.

SAIBA MAIS

Serviço de Gerenciamento Triton

O Serviço de Gerenciamento Triton (TMS) aborda o desafio de dimensionar com eficiência as instâncias do Triton com um grande número de modelos. O TMS é um serviço que ajuda quando há mais modelos do que podem caber em uma única GPU e quando muitas instâncias do Triton são necessárias em servidores para lidar com solicitações de inferência de diferentes aplicações.


Em Breve

Analisador de Modelo Triton

O Analisador de Modelo Triton é uma ferramenta para avaliar automaticamente as configurações de implantação do Triton, como tamanho do lote, precisão e instâncias de execução simultânea no processador de destino. Ele ajuda a selecionar a configuração ideal para atender às restrições de qualidade de serviço (QoS) da aplicação: latência, taxa de transferência e requisitos de memória. Reduz o tempo necessário para encontrar a configuração ideal de semanas para horas.

SAIBA MAIS

Programa da NVIDIA para Startups

O NVIDIA Inception é um programa gratuito projetado para ajudar as startups a evoluir mais rapidamente por meio do acesso à tecnologia de ponta, como NVIDIA Triton, especialistas da NVIDIA, capitalistas de risco e suporte de co-marketing.

SAIBA MAIS
Aprende mas sobre el Programa de NVIDIA para Startups

Você também pode fazer o download do Servidor de Inferência Triton no NGC. Se você estiver interessado em suporte empresarial, saiba mais sobre a NVIDIA AI Enterprise.

FAZER DOWNLOAD DO TRITON