论文介绍
在本文中,我们提出了VISinger,这是一个完整的端到端高质量歌声合成(SVS)系统,可直接从歌词和乐谱生成音频波形。我们的方法受到VITS的启发,它采用基于VAE的后验编码器,增强了基于标准化流的先验编码器和对抗解码器,以实现完整的端到端语音生成。
VISinger沿用了VITS的主要架构,但根据唱歌的特点对现有编码器进行了实质性改进。
首先,我们不使用声学特征的音素级均值和方差,而是引入长度调节器和帧先验网络来获得声学特征的帧级均值和方差,模拟歌唱中丰富的声学变化。
其次,我们进一步引入一个F0预测器来指导帧先验网络,导致更稳定的歌唱性能。
最后,为了改善歌唱节奏,我们修改了持续时间预测器以专门预测音素与音符持续时间的比率,有助于歌唱音符标准化。在专业普通话歌唱语料库上的实验表明,VISinger明显优于FastSpeech+Neural-Vocoder两阶段方法和oracle VITS;消融研究证明了不同贡献的有效性。
论文地址
https://arxiv.org/pdf/2110.08813.pdf