Opencpop: 全球首个中文精标歌声合成开源数据集

发布:2022-09-26 16:49:38
阅读:9552
作者:网易伏羲
分享:复制链接

网易伏羲联合上海视觉艺术学院、西工大、同济大学、WeNet社区发布的首个中文精标歌声合成数据集——Opencpop

项目背景

Opencpop是一个公开的高质量普通话歌唱语料库,专为歌声合成(SVS)系统而设计。该语料库由100首独特的国语歌曲组成,由专业女歌手录制。所有音频文件均在专业录音棚环境中以44,100Hz的采样率以录音棚品质录制。

所有歌唱录音都已用发音/音符/音素边界和音高类型进行语音注释。最终数据集包含3756个语音,总共约5.2 小时。测试集由5首随机选择的歌曲组成,并提供了基线合成结果。

为了证明已发布数据的可靠性并为未来研究提供基线,我们构建了基于深度神经网络的基线 SVS 模型,并使用客观指标和主观平均意见得分 (MOS) 指标对其进行评估。实验结果表明,在我们的数据库上训练的最佳 SVS 模型达到 3.70 MOS,表明提供的语料库的可靠性。Opencpop 发布到开源社区 WeNet,语料库和合成的 demo 可以在项目主页上找到。

数据主页

https://wenet.org.cn/opencpop/

论文地址

https://arxiv.org/abs/2201.07429

Github地址

https://github.com/wenet-e2e/opencpop

扫码进群
微信群
免费体验AI服务