Nvidia和Mozilla公布新版Common Voice数据集已支持76种语

Common Voice 是 Mozilla 的开源项目，基于 MPL 和议发行，到目前为止依然降生了几年时刻，它准许欲望者们为语音识别软件的数据库做出功劳，而这个数据库属于大家规模，全面人都能够将这些数据用于语音合成和识别软件。

本年 4 月，Nvidia 通过向 Mozilla 投资 150 万美元的方法参加了这项安插的协作。

今天，正在两边和一共社区的联合勤苦下，Common Voice 数据集的最新版本正式公然了。它带来了众项值得注视的新内容。最先，该语料数据集现正在有超出 13000 小时的众包语音数据。与之前的版本比拟，最新版本带来了 4622 小时的全新音频数据。还增进了 16 种新措辞，即巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克斯坦语、阿塞拜疆语和豪萨语。这使得数据召集的措辞总数抵达了 76 种。总的来说，该数据集现正在有超出 182,000 个特别的声响，过去六个月里功劳者社区增加了 25% 。

按总时长陈设的前五的措辞是英语（2630 小时）、基尼亚卢旺达语（2260 小时）、德语（1040 小时）、加泰罗尼亚语（920 小时）和天下语（840 小时）；

按百分比增进最众的措辞是泰语（增加了 20 倍，从 12 小时增加到 250 小时），卢干达语（增加了 10 倍，从 8 小时到 80 小时），天下语（增加了 8 倍众，从 100 小时到 840 小时），以及泰米尔语（增加了 9 倍众，从 24 小时到 220 小时）；

倘使你有兴味为 Common Voice 数据集做出功劳，能够探访项目官网（）参加这项安插，为项目添砖加瓦。思要将数据集用于闭连项目开垦的开垦者能够正在 GitHub 栈房（）中找到源代码和运用文档。举动 Mozilla 和 Nvidia 协作的一部门，正在这个大家数据集上锻练的模子能够通过 Nvidia NeMo 免费得到。

联系人：	王先生
电话：	15640228768
微信：	1735252255
地址：	沈阳市铁西区兴华南街58-6号

思陌产品

使用帮助

关于我们

资讯反馈

联系我们