「揭秘」Speech AI 技术发展与前沿应用

2023-11-04 12:37:00
aiadmin
原创
1391

自二十世纪下半叶第一个基于推算机的语音合成体系出生,至以隐马尔可夫模子为代外的统计呆板进修合谚语音吞噬主流,再到近十年来基于神经收集的语音合成迅速进展,推算机语音合成技巧而今已能媲美真人发声,并走向大范畴的贸易化落地阶段。

Gartner 技巧成熟度弧线解说,语音识别和语音合成技巧而今依然抵达稳步爬升收复期和出产成熟期。邦内的智能语音市集也造成了比拟成熟的形式,智能语音科技企业和互联网企业成为主导。是以,要实行不同化竞赛,企业也正在纷纷考虑怎样从简单的智能语音技巧供应商转型为供应全方位的人工智能技巧和运用的办事商。其余,纵然技巧依然趋近成熟,门槛大大低重,开荒和运转可落地的语音人工智能办事如故是一项纷乱而困苦的职司,平时需求面对及时性、可理会性、自然性、低资源、鲁棒性等挑衅。

正在智能语音市集的竞赛形式中,一大空白是算法、通用类芯片和云端 AI 芯片。借助以 GPU 为代外的通用类芯片上的技巧上风,NVIDIA 进军了智能语音周围。基于自愿语音识别( ASR )和语音合成( TTS ),NVIDIA Riva简化了开荒语音 AI 办事的端到端流程,并为语音交互供应及时职能。其余,蕴涵NVIDIA TensorRT和Triton 推理办事器正在内的诸众 NVIDIA 技巧也助助各样 Speech AI 事务负载举办大幅的降本增效。无论是 AI 呼唤中央、虚拟主力语音接口,如故视频集会中的及时字幕等运用,NVIDIA GPU 及 NVIDIA 加快技巧都正在助助用户进一步为技巧落地低重门槛,为自愿驾驶、医疗等场景的智能语音运用革新赋能。

NeMo 是 NVIDIA 推出的一款主打GPU 演练的器械,能够声援常睹的 Speech AI 闭系的职司,比方ASR、NLP、TTS、Speaker Recognition 等。将以中文语音识别为例,先容怎样运用 NeMo 迅速地完结该职司的演练。同时也会先容 NeMo 中目前已有的极少效用,比方 VAD、语言人日记等。

卒业于上海交通大学,导师为俞凯教导。卒业后曾就职于头部互联网公司语音交互部分,要紧负担流式 ASR 的迭代与优化、粤语 ASR 等。目前就职于 NVIDIA,负担 Riva 中文 ASR 模子迭代,中文 ASR 模子 GPU 布置计划落地与优化等。

NVIDIA Riva 供应了最前辈的 GPU 优化布置治理计划,用于构修和布置统统可定制的及时语音识别办事,用于诸如呼唤中央署理协助、虚拟助理、数字化身、品牌语音和视频集会转录等运用标准。

本次分享将为公共先容 NVIDIA Riva 的要紧特色,蕴涵高精度的预演练语音模子,高职能推理模子,以及高可扩展的推理办事。

德邦亚琛工业大学博士,目前于英伟达企业治理计划部分承当高级架构师,众年来从事自然说话解决和语音识别等倾向考虑,助力众家企业基于 GPU 平台实行高效易用的演练和推理平台。他是英伟达 NeMo,Riva 语音识别演练推理平台的中文模子开荒者之一。

演讲将要紧先容云上布置端到端 ASR 办事最佳实施以及云上布置端到端 TTS 办事最佳实施。

NVIDIA 中文语音治理计划要紧负担人,对基于 GPU 的语音识别和语音合成正在云上的布置有充足阅历。

演讲将要紧先容开源极简史、语音开源简史、WeNet 开源社区以及基于 GPU 的语音识别实施。

硕士卒业于西北工业大学音频语音与语音解决考虑组。WeNet 开源社区创议人,主导了业界领先的开源端到端语音识别项目 WeNet 和大范畴众周围中文语音识别开源数据集 WenetSpeech 的开荒。现任地平线语音算法专家,曾先后正在微软、出门问问等公司从事语音识别算法和产物研发。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号