Transformer-based Multimodal Information Fusion for Facial Expression Analysis

发布:2023-01-04 09:53:09
阅读:952
作者:张唯、邱锋、王苏振、曾豪、张智勐、安入东、马博文、丁彧
分享:复制链接

论文介绍

人类情感行为分析在人机交互(HCI)中受到了广泛关注。在本文中,我们介绍了我们提交给CVPR 2022 Affective Behavior Analysis in-the-wild (ABAW)的论文。为了从多个角度充分利用情感知识,我们利用了从Aff-Wild2 数据集中的视频剪辑中提取的口语、语音韵律和面部表情的多模态特征。基于这些特征,我们提出了一个统一的基于transformer的多模式框架,用于动作单元检测和表情识别。

具体地,首先从当前帧图像编码静态视觉特征。同时,我们通过滑动窗口裁剪其相邻帧,并从图像、音频和文本序列中提取三种多模态特征。然后,我们引入了一个基于transformer的融合模块,它集成了静态视觉特征和动态多模态特征。融合模块中的交叉注意模块使输出的集成特征集中在有助于下游检测任务的关键部分。我们还利用一些数据平衡技术、数据增强技术和后处理方法来进一步提高模型性能。在ABAW3 Competition的官方测试中,我们的模型在EXPR和AU赛道上均排名第一。广泛的定量评估以及对 Aff-Wild2 数据集的消融研究证明了我们提出的方法的有效性。

论文链接

https://arxiv.org/abs/2203.12367

扫码进群
微信群
免费体验AI服务