语音 AI

为您的对话式 AI 应用提供语音界面。

什么是语音 AI?

语音 AI 是对话式 AI 的一个子集,它包括自动语音识别 (ASR) 和文本转语音 (TTS),可将人类语音转换为文本,并从书面词句中生成类似人类的声音,从而实现虚拟助理、实时转录和由大语言模型 (LLM)检索增强生成 (RAG) 驱动的语音搜索等强大技术。

使用语音 AI 的优势

出色的准确性

通过语音 AI 模型自定义实现的出色准确性,将客户体验升级到卓越水平。

支持多种语言

通过提供客户所用语言的语音应用,拓展您的客户群。

高性能和可扩展性

借助低延迟、高吞吐量的应用为更多客户提供服务,这些应用可以基于任意基础设施进行即时扩展:本地、云、边缘或嵌入式基础设施。

为您的品牌提供专属自然语音

借助您的品牌专属语音进行快速、有意义的互动,提升您的客户服务质量。

免费电子书:构建语音 AI 应用

了解如何为您的对话式 AI 应用构建和部署实时语音 AI 工作流。

GTC 2024 会议

语音 AI 揭秘

如今,自动语音识别和文字转语音等语音 AI 技术可实现数百万次对话的自动化。

语音和生成式 AI 开发者日

了解如何利用大语言模型 (LLM) 和检索增强生成技术 (RAG) 添加语音和翻译功能,将聊天机器人转变为强大的多语种助理和数字人。

使用语音 AI 转换多语种多媒体

了解如何使用 NVIDIA® Riva 语音识别、文本转语音和翻译以特定语言添加字幕和配音。

语音 AI 用例

同时转录多个发言者的发言内容

同时转录多个发言者的发言内容

现代的语音转文本算法可以将会议、讲座和社交对话转录为文本,同时识别发言者并标记他们的发言内容。借助 NVIDIA 语音 AI 技术和 SDK,您可以为呼叫中心对话和视频会议创建准确的转录,也可以在医患互动时自动创建临床笔记。

让您的助手虚拟化且超级智能

让您的助手虚拟化且超级智能

多语言虚拟助手通过语音界面与用户交流,协助完成各种任务 - 从解决呼叫中心的客户问题,到作为智能家居助手打开电视,再到作为车载智能助手导航到最近的加油站。基于 LLM 和 RAG 构建超级智能虚拟助理和聊天机器人,或利用 NVIDIA Avatar Cloud Engine (ACE) 将 NVIDIA 语音和翻译 AI 集成到您的虚拟形象应用中,以多种语言进行互动。

打造您的语音品牌

打造您的语音品牌

借助可识别的品牌语音,公司可以创建应用,以便与客户建立关系,同时支持所有客户,包括存在言语和语言缺陷的客户。借助 NVIDIA Custom Voice(语音 AI 的组成部分),只需 30 分钟来录制语音数据,即可在几小时(而不是数周)内轻松为品牌打造独特的高质量个性化语音。

开发可自定义的语音 AI 界面

使用预训练模型缩短训练时间

现代语音 AI 系统使用基于海量数据集训练的深度神经网络 (DNN) 模型。随着时间的推移,语音 AI 模型的规模大幅增长,因此,即使在高性能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度学习框架,训练此类模型也可能需要数周的密集计算时间。

NVIDIA 语音 AI 在 NVIDIA NGC™ 目录中提供预训练的生产级优质模型,这些模型基于多个公共和专有数据集在 NVIDIA DGX™ 系统上训练了超过数十万小时。

图 1:高度准确的预训练模型。

图 2: 端到端 NVIDIA NeMo 工作流程

自定义模型以获得更高的准确度

许多企业必须自定义语音和翻译 AI 模型,以实现其特定对话式应用所需的多语种准确性。但是,从头开始自定义语音 AI 模型通常需要大型训练数据集和 AI 专业知识。

为加速开发和高度自定义语音模型,您可以使用 NVIDIA NeMo 构建、自定义和部署语音 (自动语音识别 (ASR) 和文本转语音 (TTS)) 以及自然语言处理 (NLP) 流程。借助 NeMo,您可以自定义、扩展和合成现有的预构建语音 AI 模块,以创建新模型。使用 NeMo 优化的模型可以轻松导出,并在 NVIDIA® Riva 本地或云端作为语音服务进行部署。

通过开发实时技能,实现自然交互

对于语音 AI 技能,公司之前必须始终在准确性和实时性能之间做出选择。例如,他们不能问一个问题,然后等待几秒钟才能得到回复。此外,他们不希望对话式 AI 应用存在误解或传达无用信息。

借助 NVIDIA Riva,公司可以实现出色的准确性,并在几毫秒内实时运行语音 AI 工作流。Riva 提供 NGC 上的 SOTA 预训练模型、低代码工具(例如用于微调的 TAO 工具套件),以实现出色准确性和面向实时性能的优化技能。

图 3:NVIDIA Riva 语音 AI 能力。

探索语音 AI 领域的新突破

语音 AI 将支持多个语种

语音 AI 应用和工作流必须理解多种语言、方言和口音,才能在世界各地部署。例如,美国和大多数其他国家/地区的人说不同的语言。在呼叫中心等用例中,客户有时会使用多种语言来描述所发生的情况。下一步是拥有能处理这些情况的语音 AI 应用。

开发者可以为每种语言使用单独的语音模型,也可以使用能处理多种语言的单个模型。如需详细了解不同语言的 ASR 模型,请访问“Speech Recognition Collections”(语音识别集)页面

将语音 AI 从云端带到设备

首次开始使用语音 AI 时,公司都选择使用云服务,因为云服务易于设置和使用。慢慢地,公司开始改用本地解决方案,避免数据出现隐私问题。现在,设备端解决方案是新的突破,不仅可以保持数据的私密性,还可以加快推理速度并降低成本。 

NVIDIA Riva 支持在嵌入式、数据中心和云环境中部署应用,为您的对话式 AI 应用开发可自定义的语音 AI 界面。

语音 AI 入门

语音 AI 工作流入门

开发中使用用于音频转录和智能虚拟助理的免费 AI 工作流,可以大大缩短开发时间。AI 工作流包括 NVIDIA AI 框架和预训练模型,以及 Helm 图表、Jupyter Notebook 和文档等资源,可帮助您快速构建 AI 解决方案。

开始使用容器和模型进行开发

除了付费版本的 NVIDIA Riva,但NVIDIA 还免费提供了可以用于大规模部署的各种容器、模型和自定义工具。

访问教育资源

获取语音 AI 简介

了解语音 AI 核心概念以及如何构建和部署语音技术应用。

揭开对话式 AI 的神秘面纱

了解如何在对话式 AI 应用中添加语音 AI,以及如何在训练和推理时自定义语音 AI。

浏览语音 AI 博客

了解语音 AI 是什么,它如何随时间变化,其关键组件、挑战、用例和 NVIDIA 语音 AI SDK。

深入了解 NVIDIA Riva

了解助力您构建语音 AI 服务的 NVIDIA Riva 主要功能。

注册以接收 NVIDIA 发布的关于语音 AI 的新动态

语音AI概览电子书