Dynamically Adjust Word Representations using Unaligned Multimodal Information

发布:2023-01-05 09:59:04
阅读:822
作者:郭继伟、唐佳佳、丁彧、孔万增
分享:复制链接

论文介绍

多模态情感分析是一个很有前途的研究领域,用于对多种异构模态进行建模。该领域存在两个主要挑战:

a)由于每种模态的采样率不同,多模态数据本质上是不对齐的

b)跨模态的元素之间的长期依赖性。

这些挑战增加了进行高效多模态融合的难度。在这项工作中,我们提出了一种名为交叉超模态融合网络(CHFN)的新型端到端网络。

CHFN是一种可解释的基于Transformer的神经模型,它为融合未对齐的多模态序列提供了一个有效的框架。我们模型的核心是使用未对齐的多模态序列在不同的非语言上下文中动态调整单词表示。它关注非语言行为信息在整个话语尺度上的影响,然后将这种影响整合到语言表达中。我们对公开可用的多模态情感分析数据集CMU-MOSI和CMU-MOSEI进行了实验。

实验结果表明,我们的模型超越了最先进的模型。此外,我们将学习到的语言模态和非语言行为信息之间的交互可视化,并探索多模态语言数据的潜在动态。

论文地址

https://dl.acm.org/doi/abs/10.1145/3503161.3548137

扫码进群
微信群
免费体验AI服务