LaMemo: Language Modeling with Look-Ahead Memory

发布:2022-11-04 15:56:28
阅读:502
作者:Haozhe Ji,张荣升,Zhenyu Yang,胡志鹏,黄民烈
分享:复制链接

会议介绍

NAACL 2022 Long Paper

论文简讯

虽然具备全连接注意力机制的Transformers在建立长期依赖关系的模型方面很强大,但在语言模型中,它们很难扩展到有上千字的长文本。解决办法之一是为模型配备一个递归记忆模块。然而,现有的方法是直接重用之前片段的隐藏状态,这些片段以单向的方式编码上下文。因此,这禁止了这些记忆与当前语境的动态互动,而当前语境为单词预测提供了最新的信息。

为了解决这个问题,我们提出了Look-Ahead Memory(LaMemo),它通过逐步关注右侧的单词和修改旧的记忆状态来加强递归记忆,以保持历史中的长期信息。LaMemo包含了双向注意和片段递归,其额外的计算开销只与记忆长度成线性比例。在广泛使用的语言建模基准上的实验表明,它比配备不同类型记忆的基线系统更有优势。

论文原文

https://arxiv.org/pdf/2204.07341.pdf

扫码进群
微信群
免费体验AI服务