Learn2Sing 2.0: Diffusion and Mutual Information-Based Target Speaker SVS by Learning from Singing Teacher

发布:2023-01-18 10:18:55
阅读:19663
作者:Heyang Xue,Xinsheng Wang,Yongmao Zhang,Lei Xie,Pen
分享:复制链接

论文介绍

为一个不擅长唱歌的人构建高质量的歌唱语料库并非易事,因此为这个人创建歌声合成器具有挑战性。Learn2Sing致力于通过学习其他人(即歌唱老师)记录的数据来合成说话人的歌声。受音调是区分歌唱和说话声音的关键风格因素,而提出的Learn2Sing 2.0首先生成音素级别平均音调值的初步声学特征,这允许针对不同风格训练此过程,即说话或唱歌,训练共享相同的条件,除了说话者信息。然后,根据特定风格,采用扩散解码器,在推理阶段通过快速采样算法加速,逐渐恢复最终的声学特征。在训练过程中,为了避免说话人嵌入和风格嵌入的信息混淆,采用互信息来抑制说话人嵌入和样式嵌入的学习。实验表明,所提出的方法能够在没有歌声数据的情况下,通过10个解码步骤为目标说话人合成高质量的歌声。

论文地址

https://arxiv.org/abs/2203.16408

扫码进群
微信群
免费体验AI服务