Transformer-based Multimodal Information Fusion for Facial Expression Analysis

发布：2023-01-04 09:53:09

阅读：2118

作者：张唯、邱锋、王苏振、曾豪、张智勐、安入东、马博文、丁彧

论文介绍

人类情感行为分析在人机交互（HCI）中受到了广泛关注。在本文中，我们介绍了我们提交给CVPR 2022 Affective Behavior Analysis in-the-wild (ABAW)的论文。为了从多个角度充分利用情感知识，我们利用了从Aff-Wild2 数据集中的视频剪辑中提取的口语、语音韵律和面部表情的多模态特征。基于这些特征，我们提出了一个统一的基于transformer的多模式框架，用于动作单元检测和表情识别。

具体地，首先从当前帧图像编码静态视觉特征。同时，我们通过滑动窗口裁剪其相邻帧，并从图像、音频和文本序列中提取三种多模态特征。然后，我们引入了一个基于transformer的融合模块，它集成了静态视觉特征和动态多模态特征。融合模块中的交叉注意模块使输出的集成特征集中在有助于下游检测任务的关键部分。我们还利用一些数据平衡技术、数据增强技术和后处理方法来进一步提高模型性能。在ABAW3 Competition的官方测试中，我们的模型在EXPR和AU赛道上均排名第一。广泛的定量评估以及对 Aff-Wild2 数据集的消融研究证明了我们提出的方法的有效性。

论文链接

https://arxiv.org/abs/2203.12367

学术论文 Transformer

SIGGRAPH 2024 | 物理模拟领域再攀高峰！网易伏羲最新技术成果成功入选

近日，国际计算机图形与交互技术顶会（The ACM Special Interest Group on Computer Graphics，简称SIGGRAPH）公布论文接收结果：网易伏羲最新研究成果《Preconditioned Nonlinear Conjugate Gradient Method for Real-time Interior-point Hyperelasticity》成功入选。8月，团队成员将赴美国科罗拉多州丹佛市，在SIGGRAPH 2024大会上亲述报告，与全世界计算机图形爱好者展开交流。

2024-07-25 17:30:20

SIGGRAPH 2024 | 物理模拟领域再攀高峰！网易伏羲最新技术成果成功入选

网易伏羲技术成果再获KDD认可，四篇入选论文展现AI研究领域深厚底蕴

近日，国际知识发现与数据挖掘大会 (ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称 KDD)公布了论文接收结果：网易伏羲共有四篇论文中稿Research Track和Applied Data Science Track。这四篇论文的研究方向涉及可解释性、在线营销、组合优化、主动学习等多个领域的关键问题，为数据科学领域带来了新的亮点。

2024-06-19 16:39:04

LLM大语言模型和检索增强生成

LLM大语言模型通常采用Transformer架构，并通过大量文本数据进行训练。它们可以理解和生成自然语言，被广泛应用于聊天机器人、文本摘要、机器翻译等领域。知名的LLM大语言模型包括OpenAI的GPT系列、谷歌的BERT等。

2023-12-06 10:31:45

TTE与传统嵌入的区别？

TTE与传统嵌入方法的最大区别在于模型结构和训练方式。TTE使用了Transformer模型和自监督学习的方式进行文本编码，可以更好地刻画文本的语义和句法信息，适用于各种文本处理任务。

2023-08-17 09:41:14

基于Transformer的个性化推荐

基于Transformer的个性化推荐是一种利用Transformer模型来实现个性化推荐的方法。Transformer是一种基于注意力机制的神经网络模型，广泛应用于自然语言处理任务，如机器翻译和文本生成。在个性化推荐中，Transformer可以学习用户的兴趣和偏好，并根据这些信息为用户推荐相关的内容。

2023-08-09 10:24:02

如何使用语义嵌入和ChatGPT增强文本搜索？

随着大数据时代的到来，人们需要处理的信息量越来越大，如何高效地检索文本信息成为了一个重要的问题。常见的文本检索方法有基于关键词的检索和基于语义的检索。基于关键词的检索方法通常只考虑单词的匹配，而忽略了单词之间的语义关系，导致检索结果准确度不高；而基于语义的检索方法则可以考虑单词之间的语义关系，提高检索结果的准确度。

2023-05-25 10:21:20

GPT模型是如何遵循提示的？

GPT模型遵循提示的过程是将提示文本与生成文本拼接在一起，作为模型的输入，模型在训练时学习到如何根据提示生成符合要求的文本，在生成时根据指定的提示生成相应的文本。前缀匹配和条件输入是常见的实现方法，具体应根据应用场景和需求进行选择。

2023-05-25 10:17:13

如何在Python中使用BERT进行情感分析？

借助BERT，我们可以更好地识别文本中的情感。在BERT中，我们可以将每个文本片段表示为向量，这些向量可以表示文本的语义信息。这些向量可以输入到分类模型中，以确定文本中的情感类别。BERT可以通过在大型语料库上进行预训练来学习语言模型，然后可以通过微调模型来适应特定的情感分析任务。

2023-05-24 10:25:35

什么是Hugging Face Transformer？

Hugging Face Transformer最初是由Hugging Face公司开发的，该公司成立于2016年，旨在为开发人员提供易于使用的NLP工具和技术。自成立以来，该公司已经成为NLP领域最受欢迎和最成功的公司之一。Hugging Face Transformer库的成功得益于其提供的强大和易于使用的功能，以及其开源代码和活跃的社区。

2023-05-15 10:34:05

BERT模型如何用于情感分类？

BERT是一种自然语言处理技术，可以用于各种任务，包括情感分类。情感分类是文本分类的一种特殊形式，其中目标是确定文本中所表达的情感，例如正面、负面或中性。BERT模型基于Transformer架构，能够利用大量的无标签文本数据进行预训练，从而提高模型的性能。

2023-05-08 10:47:08