대화형 AI 애플리케이션을 위한 음성 기반 인터페이스를 제공합니다.
음성 AI는 사람들이 디바이스, 시스템 및 컴퓨터와 대화하여 삶을 단순화하고 증강할 수 있게 해줍니다. 대화형 AI의 하위 집합으로, 자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS)이 포함되어 있어 인간의 목소리를 텍스트로 변환하고 문자로 인간과 같은 목소리를 생성하여 가상 도우미, 실시간 전사, 음성 검색 및 질문 답변 시스템과 같은 강력한 기술을 구현할 수 있습니다.
음성 AI 모델 맞춤화로 구현되는 동급 최고의 정확도로 고객 경험을 독보적인 수준으로 향상하세요.
고객이 말하는 언어로 음성 기반 애플리케이션을 제공하여 고객 기반을 확장하세요.
온프레미스, 클라우드, 엣지 또는 임베디드 등 모든 인프라에서 즉시 확장할 수 있으며, 지연 시간은 짧고 처리량은 많은 애플리케이션을 통해 더 많은 고객에게 서비스를 제공하세요.
브랜드의 고유한 목소리로 빠르고 의미 있는 참여를 유도하여 고객 서비스에 활력을 불어넣을 수 있습니다.
대화형 AI 애플리케이션을 위한 실시간 음성 AI 파이프라인을 구축하고 배포하는 방법을 알아보세요.
최신 음성 AI 시스템은 대규모 데이터세트에서 훈련된 딥 뉴럴 네트워크(DNN) 모델을 사용합니다. 시간이 지남에 따라 음성 AI 모델의 규모가 너무 커지면 고성능 GPU에서 PyTorch, TensorFlow 및 MXNet 등의 딥 러닝 프레임워크를 사용해도 모델 훈련에 몇 주가 걸릴 수 있습니다.
NVIDIA 음성 AI는 NVIDIA DGX™ 시스템에서 수십만 시간 동안 여러 공개 및 독점 데이터세트에서 훈련된 NVIDIA NGC™ 카탈로그에 사전 훈련된 프로덕션급 모델을 제공합니다.
그림 1: 매우 정확한 사전 훈련 모델.
그림 2: 엔드 투 엔드 TAO Toolkit 워크플로우.
많은 엔터프라이즈에서는 특정 대화형 애플리케이션에서 원하는 정확도를 달성하기 위해 음성 AI 모델을 맞춤화하려고 합니다. 하지만 음성 AI 모델을 처음부터 맞춤화하려면 대개 대규모 훈련 데이터 세트와 AI 전문 지식이 필요합니다.
사전 AI 경험 없이 개발 속도를 높이고 음성 모델을 고도로 맞춤화하려면 코드가 짧은 AI 모델 개발 툴킷인 NVIDIA TAO Toolkit을 사용할 수도 있습니다. 이 툴킷은 사전 훈련된 모델에 검증된 전이 학습 접근 방식을 적용하고, 사용 사례에 맞게 음성 AI 모델을 미세 조정합니다. NVIDIA는 또한 연구원들이 최첨단 SOTA(음성 AI 모델) 음성 AI 모델을 구축할 수 있는 오픈 소스 툴킷인 NeMo를 제공합니다. NeMo 및 TAO Toolkit으로 최적화된 모델은 온 프레미스 또는 클라우드에서 NVIDIA® Riva에서 음성 서비스로 쉽게 내보내고 배포할 수 있습니다.
음성 AI 기술의 경우 기업은 항상 정확도와 실시간 성능 중 하나를 선택해야만 했습니다. 예를 들어, 질문을 던질 수도 없고 답을 들으려면 몇 초를 기다려야 했죠. 게다가 대화형 AI 애플리케이션이 횡설수설하거나 대화를 잘못 해석해도 곤란할 것입니다.
NVIDIA Riva를 사용하면 기업은 세계적 수준의 정확도를 달성하고 음성 AI 파이프라인을 몇 밀리초도 안 되는 시간에 실시간으로 실행할 수 있습니다. Riva는 세계적 수준의 정확도와 실시간 성능을 위한 최적화된 기술을 달성하기 위해 미세 조정을 위한 TAO Toolkit과 같은 로우 코딩 도구, NGC에서 SOTA 사전 훈련된 모델을 제공합니다.
그림 3: NVIDIA Riva 음성 AI 기술 기능.
등록하고 NVIDIA의 최신 음성 AI 소식을 받아보세요.