论文介绍
我们提出了一种端到端的深度学习方法,用于仅从音频生成实时面部动画。具体来说,我们的深度架构采用深度双向长短期记忆网络和注意力机制来发现语音中时变上下文信息的潜在表示,并识别不同信息对特定面部状态的重要性。因此,我们的模型能够在推理时驱动不同级别的面部运动,并自动跟上输入音频中相应的音高和潜在说话风格,无需假设或进一步的人为干预。评估结果表明,我们的方法不仅可以从音频中生成准确的嘴唇运动,还可以成功地回归说话者随时间变化的面部运动。
论文地址
https://arxiv.org/abs/1905.11142