Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation

发布:2022-12-30 09:37:36
阅读:1072
作者:李林橙、王苏振、张智勐、丁彧、郑一星、于昕、范长杰
分享:复制链接

论文介绍

本文首次提出了从文字生成说话人脸视频的算法框架,除了音视频同步的口型,还同时生成了与说话内容匹配的面部表情和与说话节奏匹配度韵律头动。

本文的算法由两个阶段组成:第一阶段与特定说话人无关,包括三个并行网络,分别用于生成口型、眉眼表情和头部运动三组动作参数; 第二阶段合成特定说话人视频,基于三维人脸信息监督的自适应注意力网络来生成不同特定人的说话视频, 此阶段以动作参数作为输入,生成注意力掩码来修改不同说话人的面部表情变化。为了更好的采集面部动作和说话内容的关系,本文借助动作捕捉设备建立了一个音视频同步数据集。基于这个动捕数据集,本文的算法可以实现高效的端到端训练。

定性和定量的实验结果表明,本文的算法能够基于某个人物的少量数据(5分钟的视频),从文字生成有情绪和韵律节奏的该人物的像素级说话人脸视频,视觉质量超过已有方法。

论文地址

https://arxiv.org/abs/2104.07995

扫码进群
微信群
免费体验AI服务