论文介绍
一次性风格迁移是一项具有挑战性的任务,因为在一个话语上进行训练会使模型极易过度拟合训练数据,并导致说话者相似度低和缺乏表达力。在本文中,我们建立在识别合成框架的基础上,提出了一种基于说话人自适应的风格转换的一次性语音转换方法。首先,采用说话人归一化模块去除ASR提取的瓶颈特征中与说话人相关的信息。其次,我们在自适应过程中采用权重正则化,以防止仅使用目标说话人的一种话语作为训练数据而导致的过度拟合。最后,为了全面解耦语音因素,即内容、说话者、风格和将源风格传输到目标,使用韵律模块提取韵律表示。实验表明,我们的方法在风格和说话人相似性方面优于最先进的一次性VC系统;此外,我们的方法还保持了良好的语音质量。
论文地址
https://arxiv.org/abs/2111.12277