会议介绍
NAACL 2022 Long Paper
论文简讯
虽然具备全连接注意力机制的Transformers在建立长期依赖关系的模型方面很强大,但在语言模型中,它们很难扩展到有上千字的长文本。解决办法之一是为模型配备一个递归记忆模块。然而,现有的方法是直接重用之前片段的隐藏状态,这些片段以单向的方式编码上下文。因此,这禁止了这些记忆与当前语境的动态互动,而当前语境为单词预测提供了最新的信息。
为了解决这个问题,我们提出了Look-Ahead Memory(LaMemo),它通过逐步关注右侧的单词和修改旧的记忆状态来加强递归记忆,以保持历史中的长期信息。LaMemo包含了双向注意和片段递归,其额外的计算开销只与记忆长度成线性比例。在广泛使用的语言建模基准上的实验表明,它比配备不同类型记忆的基线系统更有优势。
论文原文
https://arxiv.org/pdf/2204.07341.pdf