论文介绍
风格化的表情动画合成在游戏剧情生产中具有极高的应用价值。在本文中,我们提出一个新的任务,即实现风格可控的人脸表情动画合成,并进一步的将表情动画渲染成说话人脸视频。传统的情绪化表情生成工作主要关注不同情绪的表情的差异性,而忽略了同种情绪不同人之间的差异性。我们将这种交谈过程中不同人的面部运动差异性概括为“说话风格”。
在本文中,我们通过给定一段参考说话视频或者参考表情动画,从中提取出参考片段的说话风格,然后将说话风格嵌入到语音驱动的表情动画合成系统,从而实现风格可控的表情动画合成。为了实现上述目标,我们首先设计了一个风格化特征向量编码器,从输入的时序表情动画中提取表示表情运动模式的风格化特征向量。之后,我们通过基于风格化特征向量的动态解码器,从语音特征中合成对应风格的三维人脸表情参数。由于固定的网络参数很难处理多样化的说话风格,我们设计了一个风格化自适应网络层,通过输入的风格特征向量来改变网络层中的权重参数,从而使得网络能够支持多样化的风格化特征向量。之后,我们使用一个图像渲染器将动画参数渲染成视频。该方法提出了新的任务,并实现了更高的情绪化表情动画合成效果。该研究工作能够产生高质量的表情动画,在游戏、元宇宙、虚拟人相关的应用场景中具有广泛应用。
论文地址
https://arxiv.org/abs/2301.01081