Nvidia和Mozilla公布新版Common Voice数据集已支持76种语

2024-07-15 15:20:00
aiadmin
原创
459

Common Voice 是 Mozilla 的开源项目,基于 MPL 和议发行,到目前为止依然降生了几年时刻,它准许欲望者们为语音识别软件的数据库做出功劳,而这个数据库属于大家规模,全面人都能够将这些数据用于语音合成和识别软件。

本年 4 月,Nvidia 通过向 Mozilla 投资 150 万美元的方法参加了这项安插的协作。

今天,正在两边和一共社区的联合勤苦下,Common Voice 数据集的最新版本正式公然了。它带来了众项值得注视的新内容。最先,该语料数据集现正在有超出 13000 小时的众包语音数据。与之前的版本比拟,最新版本带来了 4622 小时的全新音频数据。还增进了 16 种新措辞,即巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克斯坦语、阿塞拜疆语和豪萨语。这使得数据召集的措辞总数抵达了 76 种。总的来说,该数据集现正在有超出 182,000 个特别的声响,过去六个月里功劳者社区增加了 25% 。

按总时长陈设的前五的措辞是英语(2630 小时)、基尼亚卢旺达语(2260 小时)、德语(1040 小时)、加泰罗尼亚语(920 小时)和天下语(840 小时);

按百分比增进最众的措辞是泰语(增加了 20 倍,从 12 小时增加到 250 小时),卢干达语(增加了 10 倍,从 8 小时到 80 小时),天下语(增加了 8 倍众,从 100 小时到 840 小时),以及泰米尔语(增加了 9 倍众,从 24 小时到 220 小时);

倘使你有兴味为 Common Voice 数据集做出功劳,能够探访项目官网()参加这项安插,为项目添砖加瓦。思要将数据集用于闭连项目开垦的开垦者能够正在 GitHub 栈房()中找到源代码和运用文档。举动 Mozilla 和 Nvidia 协作的一部门,正在这个大家数据集上锻练的模子能够通过 Nvidia NeMo 免费得到。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号