Nvidia和Mozilla公布新版Common Voice数据集已支持76种语
- 2024-07-15 15:20:00
- aiadmin 原创
- 459
Common Voice 是 Mozilla 的开源项目,基于 MPL 和议发行,到目前为止依然降生了几年时刻,它准许欲望者们为语音识别软件的数据库做出功劳,而这个数据库属于大家规模,全面人都能够将这些数据用于语音合成和识别软件。
本年 4 月,Nvidia 通过向 Mozilla 投资 150 万美元的方法参加了这项安插的协作。
今天,正在两边和一共社区的联合勤苦下,Common Voice 数据集的最新版本正式公然了。它带来了众项值得注视的新内容。最先,该语料数据集现正在有超出 13000 小时的众包语音数据。与之前的版本比拟,最新版本带来了 4622 小时的全新音频数据。还增进了 16 种新措辞,即巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克斯坦语、阿塞拜疆语和豪萨语。这使得数据召集的措辞总数抵达了 76 种。总的来说,该数据集现正在有超出 182,000 个特别的声响,过去六个月里功劳者社区增加了 25% 。
按总时长陈设的前五的措辞是英语(2630 小时)、基尼亚卢旺达语(2260 小时)、德语(1040 小时)、加泰罗尼亚语(920 小时)和天下语(840 小时);
按百分比增进最众的措辞是泰语(增加了 20 倍,从 12 小时增加到 250 小时),卢干达语(增加了 10 倍,从 8 小时到 80 小时),天下语(增加了 8 倍众,从 100 小时到 840 小时),以及泰米尔语(增加了 9 倍众,从 24 小时到 220 小时);
倘使你有兴味为 Common Voice 数据集做出功劳,能够探访项目官网()参加这项安插,为项目添砖加瓦。思要将数据集用于闭连项目开垦的开垦者能够正在 GitHub 栈房()中找到源代码和运用文档。举动 Mozilla 和 Nvidia 协作的一部门,正在这个大家数据集上锻练的模子能够通过 Nvidia NeMo 免费得到。
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255