论文介绍
在这项工作中,我们证明了从预训练的基于掩码语言的编码器中导出的上下文化单词向量跨层共享一个共同的、可能不受欢迎的模式。也就是说,我们在BERT和RoBERTa的隐藏状态向量中发现了持续异常神经元的情况,它们在所述向量中始终具有最小或最大值。为了研究这些信息的来源,我们引入了一种神经元水平分析方法,该方法揭示了异常值与位置嵌入捕获的信息密切相关。我们还从头开始对RoBERTa基础模型进行预训练,发现异常值在不使用位置嵌入的情况下消失。我们发现,这些异常值是编码器原始向量空间各向异性的主要原因,对它们进行裁剪会增加向量之间的相似性。我们在实践中证明了这一点,证明了裁剪向量可以更准确地区分词义,并在均值池时导致更好的句子嵌入。在三个监督任务中,我们发现裁剪不会影响性能。
论文地址
https://arxiv.org/abs/2011.04393