Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion

发布:2023-01-03 09:36:55
阅读:1023
作者:王苏振、李林橙、丁彧、范长杰、于昕
分享:复制链接

论文介绍

one-shot说话人脸生成旨在给定任意一张人脸图像和任意一段语音,合成具有口型同步、头动以及表情自然的说话人脸视频。此前的基于神经网络的工作已经足以得到较好的与语音匹配的口型,但仍存在以下问题:

1、此前的方法忽略头动或试图将头动与图像耦合在一起,无法获得自然的头动。

2、此前的方法大多基于人脸特征如关键点引导人脸图像合成,确实对人脸之外区域的建模,生成的视频存在大量的伪影和不连贯性。

为解决上述问题,考虑到语音与头动之间的复杂关系,本文对头动单独建模,提出基于空间编码的神经网络进行自然的头动序列预测;为了对语音相关的整张图像的运动进行建模,本文提出使用语音先驱动生成整幅图的稠密运动场,再由稠密运动场引导图像合成。大量的实验结果证明,本文的方法可以得到同语音节奏一致的自然头动,并且将one-shot说话人脸视频的前沿合成效果往前推动了一大步。

论文地址

https://arxiv.org/abs/2107.09293

扫码进群
微信群
免费体验AI服务