语音 AI

为您的对话式 AI 应用提供语音界面。

什么是语音 AI？

语音 AI 是对话式 AI 的一个子集，它包括自动语音识别 (ASR) 和文本转语音 (TTS)，可将人类语音转换为文本，并从书面词句中生成类似人类的声音，从而实现虚拟助理、实时转录和由大语言模型 (LLM) 和检索增强生成 (RAG) 驱动的语音搜索等强大技术。

使用语音 AI 的优势

出色的准确性

通过语音 AI 模型自定义实现的出色准确性，将客户体验升级到卓越水平。

支持多种语言

通过提供客户所用语言的语音应用，拓展您的客户群。

高性能和可扩展性

借助低延迟、高吞吐量的应用为更多客户提供服务，这些应用可以基于任意基础设施进行即时扩展：本地、云、边缘或嵌入式基础设施。

为您的品牌提供专属自然语音

借助您的品牌专属语音进行快速、有意义的互动，提升您的客户服务质量。

免费电子书：构建语音 AI 应用

了解如何为您的对话式 AI 应用构建和部署实时语音 AI 工作流。

下载电子书

GTC 2024 会议

语音 AI 揭秘

如今，自动语音识别和文字转语音等语音 AI 技术可实现数百万次对话的自动化。

点播观看

语音和生成式 AI 开发者日

了解如何利用大语言模型 (LLM) 和检索增强生成技术 (RAG) 添加语音和翻译功能，将聊天机器人转变为强大的多语种助理和数字人。

点播观看

使用语音 AI 转换多语种多媒体

了解如何使用 NVIDIA® Riva 语音识别、文本转语音和翻译以特定语言添加字幕和配音。

点播观看

语音 AI 用例

同时转录多个发言者的发言内容

现代的语音转文本算法可以将会议、讲座和社交对话转录为文本，同时识别发言者并标记他们的发言内容。借助 NVIDIA 语音 AI 技术和 SDK，您可以为呼叫中心对话和视频会议创建准确的转录，也可以在医患互动时自动创建临床笔记。

NVIDIA Riva：构建您自己的语音 AI 应用

让您的助手虚拟化且超级智能

多语言虚拟助手通过语音界面与用户交流，协助完成各种任务 - 从解决呼叫中心的客户问题，到作为智能家居助手打开电视，再到作为车载智能助手导航到最近的加油站。基于 LLM 和 RAG 构建超级智能虚拟助理和聊天机器人，或利用 NVIDIA Avatar Cloud Engine (ACE) 将 NVIDIA 语音和翻译 AI 集成到您的虚拟形象应用中，以多种语言进行互动。

了解 RAG AI 聊天机器人使用 Omniverse ACE 开发和部署交互式虚拟形象

打造您的语音品牌

借助可识别的品牌语音，公司可以创建应用，以便与客户建立关系，同时支持所有客户，包括存在言语和语言缺陷的客户。借助 NVIDIA Custom Voice（语音 AI 的组成部分），只需 30 分钟来录制语音数据，即可在几小时（而不是数周）内轻松为品牌打造独特的高质量个性化语音。

利用 NVIDIA Omniverse ACE 在 Project Tokkio 中提供专业自然的问答

开发可自定义的语音 AI 界面

使用预训练模型缩短训练时间

现代语音 AI 系统使用基于海量数据集训练的深度神经网络 (DNN) 模型。随着时间的推移，语音 AI 模型的规模大幅增长，因此，即使在高性能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度学习框架，训练此类模型也可能需要数周的密集计算时间。

NVIDIA 语音 AI 在 NVIDIA NGC™ 目录中提供预训练的生产级优质模型，这些模型基于多个公共和专有数据集在 NVIDIA DGX™ 系统上训练了超过数十万小时。

详细了解 NVIDIA 预训练模型

图 1：高度准确的预训练模型。

图 2: 端到端 NVIDIA NeMo 工作流程

自定义模型以获得更高的准确度

许多企业必须自定义语音和翻译 AI 模型，以实现其特定对话式应用所需的多语种准确性。但是，从头开始自定义语音 AI 模型通常需要大型训练数据集和 AI 专业知识。

为加速开发和高度自定义语音模型，您可以使用 NVIDIA NeMo 构建、自定义和部署语音 (自动语音识别 (ASR) 和文本转语音 (TTS)) 以及自然语言处理 (NLP) 流程。借助 NeMo，您可以自定义、扩展和合成现有的预构建语音 AI 模块，以创建新模型。使用 NeMo 优化的模型可以轻松导出，并在 NVIDIA® Riva 本地或云端作为语音服务进行部署。

下载此电子书，开始使用可定制的语音 AI