论文介绍
本文介绍了 Opencpop,这是一种公开可用的高质量普通话歌唱语料库,专为歌声合成(SVS)而设计。语料库包含100首流行的普通话歌曲,由一位女专业歌手演唱。音频文件以44,100赫兹的采样率以录音室质量录制,并提供相应的歌词和乐谱。所有歌唱录音都用音素边界和音节(音符)边界进行了语音注释。为了证明已发布数据的可靠性并为未来的研究提供基准,我们构建了基于基准深度神经网络的SVS模型,并使用客观指标和主观平均意见得分(MOS)度量对其进行了评估。实验结果表明,在我们的数据库上训练的最佳SVS模型达到了3.70MOS,表明所提供语料库的可靠性。Opencpop发布到开源社区WeNet,语料库和合成的demo可以在项目主页找到。
论文地址
https://arxiv.org/abs/2201.07429