论文介绍
在少样本面部配音(facial dubbing)的工作中,实现高分辨率的面部配音仍旧是一项挑战。之前的方法都不能实现高分辨率的面部配音。为了解决这个问题,本文提出了一种形变-修补网络(deformation inpainting network)来实现高分辨率的面部配音。之前的方案都使用多层上采样层从隐空间编码合成像素,而形变-修补网络通过对参考图像的特征图进行形变来保留更多的高频纹理细节。
具体地,形变-修补网络包括两个主要的部分:形变部分和修补部分。在形变部分中,5帧参考人脸图像自适应的实现空间形变得到形变后的特征图,形变后的特征图的口型与输入语音同步且头部姿态与源人脸图像帧对齐。在修补部分中,为了实现面部配音,一个特征解码器被用来融合形变特诊图中的嘴部区域和源人脸图像的头部姿态和上半脸区域。最后,形变-修补网络实现了高分辨率的面部配音。我们做了定性和定量实验,实验结果验证了在高分辨率下我们的方案优于目前最新的方法。
论文地址
https://fuxivirtualhuman.github.io/pdf/AAAI2023_FaceDubbing.pdf