Flow-based One-shot Talking Face Genaration with a High-resolution Audio-visual Dataset

发布:2022-12-30 09:42:19
阅读:882
作者:张智勐、李林橙、丁彧、范长杰
分享:复制链接

论文介绍

one-shot说话人脸合成的目的是给定任意一张人脸图像和任意一段语音,合成具有语音口型同步、眉眼头动自然的高清说话人脸视频。之前的工作合成的视频分辨率一直受到限制,主要原因有两个:

1. 目前没有合适的高清audio-visual数据集。

2.之前的工作使用人脸landmark引导人脸图像合成,而对于高分辨率图像来说landmark太稀疏了。

为了解决上述问题,我们首先收集了一个in-the-wild的高清人脸audio-visual数据集YAD,YAD数据集比之前的in-the-wild数据集更加高清,比之前的in-the-lab数据集包含有更多的人物ID。其次,基于高清数据集YAD,我们借助3DMM将整个方法分成表情参数合成和视频图像合成两个阶段,在表情参数合成阶段中,我们使用multi-task的方法合成嘴唇运动参数、眉眼运动参数和头部运动参数。在视频图像合成阶段,我们使用稠密运动场替代landmark引导人脸图像生成,定性和定量结果表明我们的工作与之前的工作相比可以合成更加高清的视频。

论文地址

https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Flow-Guided_One-Shot_Talking_Face_Generation_With_a_High-Resolution_Audio-Visual_Dataset_CVPR_2021_paper.pdf

扫码进群
微信群
免费体验AI服务