会议介绍
NAACL 2022 Findings
论文简讯
本文提出了一个新的预训练模型DecBERT。对于BERT模型来说,如果缺乏了位置信息,将无法对语言进行建模,本文提出了一个新的方法增强BERT的位置信息编码能力,在BERT模型的前两层的attention中插入causal attention mask,使得模型的前两层天然对文本位置敏感,从而更好的对语言建模,在自然语言理解的benchmark GLUE上比较,我们的DecBERT模型比起BERT有更好的表现。
论文原文
https://arxiv.org/pdf/2204.08688.pdf