One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning

发布:2023-01-04 09:47:52
阅读:977
作者:王苏振、李林橙、丁彧、于昕
分享:复制链接

论文介绍

音频驱动的单镜头说话面部生成方法通常在不同人的视频资源上进行训练。然而,他们制作的视频经常会出现不自然的口型和不同步的嘴唇,因为这些方法很难从不同的说话者那里学习到一致的讲话风格。我们观察到,从特定的说话者那里学习一致的讲话风格就会容易得多,这会获得真实的嘴巴动作变化。因此,我们通过探索来自特定说话者的音频和视觉运动之间的一致相关性,然后将音频驱动的动作传递到参考图像,提出了一种新颖的单镜头说话面部生成框架。

具体而言,我们开发了一种视听相关变换器(AVCT),旨在从输入音频中推断由基于关键点的密集运动场表示的说话运动。特别是,考虑到音频可能来自部署中的不同身份,我们结合音素来表示音频信号。通过这种方式,我们的AVCT可以有效地推广到其他身份所说的音频。此外,由于面部关键点用于表示说话者,AVCT对训练说话者的外观是不可知的,因此允许我们以更容易地方式操纵不同身份的面部图像。考虑到不同的面部形状会导致不同的运动场,利用运动场传递模块来减少训练身份和单镜头参考之间的音频驱动的密集运动场间隙。一旦我们获得了参考图像的密集运动场,我们就使用图像渲染器从音频剪辑中生成其说话的面部视频。得益于我们学习到的一贯的说话风格,我们的方法产生了真实的口型和生动的动作。广泛的实验表明,我们的合成视频在视觉质量和嘴唇同步方面优于最先进的视频。

论文地址

https://arxiv.org/abs/2112.02749

扫码进群
微信群
免费体验AI服务