One-shot Voice Conversion using StarGAN

发布:2022-12-29 11:27:01
阅读:812
作者:王若白、丁彧、李林橙、范长杰
分享:复制链接

论文介绍

大多数语音转换 (VC) 方法提取独立于说话人的信息,用以将语音转换为目标说话人的音色,同时保留语言内容。我们提出的VC系统,将新思想与 VC 中的多种有用思想相结合。VQ-VAE(矢量量化变分自动编码器)是一种将音素标记序列作为瓶颈特征进行恢复和编码的方法。考虑到音高信息为音调语言提供了更好的VC结果,并且在低资源数据集上单独建模共振峰掩码和音高更稳定。音素标记序列的正则化提供了更平滑和更自然的序列,并避免了过度拟合。除了 VC 系统,我们还提出了更多的正则化方法,例如 Viterbi 正则化。实验表明,我们提出的方法比最先进的无监督方法基线表现更好。我们的实验证明了网络结构设计的合理性。

论文地址

https://ieeexplore.ieee.org/document/9053842

扫码进群
微信群
免费体验AI服务