论文介绍
one-shot说话人脸生成旨在给定任意一张人脸图像和任意一段语音,合成具有口型同步、头动以及表情自然的说话人脸视频。此前的基于神经网络的工作已经足以得到较好的与语音匹配的口型,但仍存在以下问题:
1、此前的方法忽略头动或试图将头动与图像耦合在一起,无法获得自然的头动。
2、此前的方法大多基于人脸特征如关键点引导人脸图像合成,确实对人脸之外区域的建模,生成的视频存在大量的伪影和不连贯性。
为解决上述问题,考虑到语音与头动之间的复杂关系,本文对头动单独建模,提出基于空间编码的神经网络进行自然的头动序列预测;为了对语音相关的整张图像的运动进行建模,本文提出使用语音先驱动生成整幅图的稠密运动场,再由稠密运动场引导图像合成。大量的实验结果证明,本文的方法可以得到同语音节奏一致的自然头动,并且将one-shot说话人脸视频的前沿合成效果往前推动了一大步。
论文地址
https://arxiv.org/abs/2107.09293