対話型 AI アプリケーション向け音声ベース インターフェイスを提供します。
スピーチ AI は、デバイス、マシン、コンピューターと会話することで、生活を便利にし、生活の質を上げることができます 対話型 AI のサブセットには、自動音声認識 (ASR) と音声合成 (TTS) が含まれており、人間の声をテキストに変換し、文字から人間のような音声を生成します。仮想アシスタント、リアルタイムの文字起こし、音声検索、質疑応答システムなどのパワフルなテクノロジが可能になります。
スピーチ AI モデルのカスタマイズで実現されるこのクラス最高の精度で顧客体験が特別なものにアップグレードされます。
顧客が話す言語で音声ベースのアプリケーションを提供することで、顧客基盤を拡大します。
オンプレミス、クラウド、エッジ、組み込みなど、あらゆるインフラストラクチャで瞬時に拡張できる低レイテンシで高スループットのアプリケーションで、より多くの顧客にサービスを提供します。
ブランド独自の声は顧客の関心を引き、意味のある顧客関係を短期間で築き、顧客サービスを充実させることができます。
対話型 AI アプリケーション向けリアルタイム スピーチ AI パイプラインを構築し、展開する方法をご紹介します。
現代のスピーチ AI システムは、膨大なデータセットでトレーニングされたディープ ニューラル ネットワーク (DNN) モデルを使用します。時間の経過とともにスピーチ AI モデルの規模が非常に大きくなり、そのようなモデルのトレーニングには、高性能な GPU で PyTorch、TensorFlow、MXNet などのディープラーニング フレームワークを使用しても、大量の計算処理に数週間かかることがあります。
NVIDIA スピーチ AI は、NVIDIA NGC™ カタログにトレーニング済みで製品品質のモデルを提供します。それらモデルは、NVIDIA DGX™ システムで数十万時間以上にわたり、公共および独自のデータセットでトレーニングされます。
図 1: 精度の高いトレーニング済みモデル。
図 2: エンドツーエンド TAO ツールキット ワークフロー。
多くの企業では、特定の対話型アプリケーションに最適な精度を達成するために、スピーチ AI モデルをカスタマイズする必要があります。しかし、スピーチ AI モデルをゼロからカスタマイズするには、通常、大規模なトレーニング データセットと AI の専門知識が必要になります。
AI 経験がなくても、開発をスピードアップし、音声モデルをカスタマイズを行うなら、ローコード AI モデル開発キットである NVIDIA TAO Toolkit を利用できます。これは、実証済みの遷移学習のアプローチがトレーニング済みモデルに応用され、ユース ケースに合わせてスピーチ AI モデルを微調整します。NVIDIA は、研究者が最先端のスピーチ AI モデルを構築するためのオープンソース ツールキットである NeMo も提供しています。NeMo と TAO Toolkit で最適化されたモデルは音声サービスとしてオンプレミスまたはクラウドの NVIDIA® Riva に簡単にエクスポートし、展開できます。
スピーチ AI スキルについては、企業は常に精度かリアルタイム性能のどちらかを選択する必要がありました。たとえば、質問をして応答を数秒待つことはありえません。また、対話型 AI アプリケーションが間違って解釈し、意味不明な発言をすることも避けなければなりません。
NVIDIA Riva なら、企業は世界最高レベルの精度を達成しながら、スピーチ AI パイプラインを数ミリ秒以下のリアルタイムで実行できます。Riva は NGC の最先端のトレーニング済みモデル、世界最高レベルの精度を達成するための微調整を行う TAO Toolkit などのローコード ツール、リアルタイム性能のための最適化されたスキルを提供します。
図 3: NVIDIA Riva のスピーチ AI スキル機能。
登録してスピーチ AI に関する最新ニュースを NVIDIA から受け取る