Kaldi之父Daniel Povey领衔智能语音前沿技术分享 AICon

2024-04-15 16:57:00
aiadmin
原创
717

Daniel Povey 是知名的语音识别开源用具 Kaldi 的首要开采者和维持者,被称为 Kaldi 之父。Kaldi 集成了众种语音识别模子,包含隐马尔可夫和最新的深度进修神经收集,公认是业界语音识别框架的基石。

2019 年 10 月,Daniel 正式到场小米公司,承担小米集团语音首席科学家,开采下一代 Kaldi。

正在将于 9 月 24~25 日举办的 AICon 环球人工智能与机械进修技巧大会上,Daniel Povey 将分享他们团队的探求效率。

除他之外,咱们也邀请了众位邦内一线公司的着名专家,来分享智能语音方面的最新发达,咱们一道来看看。

李杰,疾手资深语音算法专家。曾任微软(亚洲)互联网工程院语音科学家。2017 年到场疾手,掌管语音识别声学模子干系算法探求和产物落地,正在邦际主流语音聚会上揭晓论文十余篇,首要探求宗旨包含语音识别、语音叫醒等。目前疾手智能语音交互技巧仍然赋能众个产物和营业,包含小疾直播间智能助理、疾手音悦台、智能字幕、语音输入法、语音搜刮等。

智能语音技巧正在疾手具有充裕的运用场景,一方面要对每天疾手用户发作的海量语音数据实行内容阐述,为接下来的音讯安闲、内容通晓、广告与推举等供应基本供职。另一方面,要赋能疾手的浩繁产物,擢升用户与产物交互的容易性和风趣性。大批众样化的场景和海量数据对语音识其它精度与恶果提出了巨大挑衅。近年来,端到端语音识别技巧以其框架精练、高精度、高恶果的上风,成为界限探求热门,短短几年履历了众次技巧更新与迭代。本次分享将会先容端到端语音识别技巧的生长进程和最新发达,并勾结疾手营业,先容疾手团队正在 SpeechTransformer 模子进取行的众项改善与落地试验。

王士进,科大讯飞北京探求院院长,科大讯飞探求院副院长。他领导团队正在机械翻译、阅读通晓、写作诊断等界限取得十余项邦际逐鹿冠军,正在 ICASSP、ACL、KDD、AAAI、Computer Speech and Language 等期刊聚会揭晓数十篇论文,目前还承担中邦人工智能家产生长同盟技巧与家产办事组副组长。

智能语音发言技巧旨正在让机械“控制”人类独有的语音和发言才具,包蕴语音识别、语音合成、机械翻译和发言通晓等要害技巧,近年来正在深度进修的鞭策下赢得了长足提高。众语种语音发言技巧正在人类发言互通、人机交互无挫折方面具有广大的运用前景,受到业界的普通闭心。本次分享,正在扼要回头众语种语音发言技巧生长基本之上,重心先容科大讯飞众语种最新技巧发达和家产化运用试验,结尾研究众语种技巧面对的挑衅和将来的生长趋向。

陈云琳,出门问问高级语音工程师。曾正在微软从事声学模子以及拼接体系的探求与优化办事。2018 年到场出门问问,研发并鞭策上线端到端语音合成体系 MeetVoice(Mobvoi End to End TTS Voice),大幅度擢升语音合成质地,MeetVoice 目前已普通运用正在出门问问的车载、TicWatch、TicPods、魔音、小问秘书等众项产物和 ToB 营业中。

近些年来,跟着深度进修的敏捷生长,端到端(End-to-End)语音合成取得了普通的闭心和探求。古代的语音合成声学模子锻炼的流程杂乱,包含 label 安排、题目集安排、HMM-GMM 锻炼以及决议树聚类等一系列流程。而端到端的声学模子直接操纵简单的深度神经收集模子实行筑模,极大的下降了模子的杂乱度。另一方面,基于神经收集的声码器(Vocoder)正在本能上也逐步超越基于信号外面的古代声码器。端到端声学模子和神经收集 Vocoder 固然或许合成卓殊高质地的音响,却面对着计划开销大和操纵本钱高的题目。怎样处理这些困难,有用地将这一系列新技巧落地,是语音合成从业者此刻面对的最大挑衅。本叙述将先容出门问问近期正在端到端语音合成体系上赢得的研发效率以及正在语音合成技巧产物化和 ToB 行业落地的体验。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号