论文简介
尽管在生成流畅文本方面取得了进展,但当生成像故事、新闻等叙事性文本的时候,现有的预训练模型对涉及到的实体容易生成不一致的事件序列。我们猜想,这些问题是由于简单用单词的静态向量表征实体导致的,而忽略了建模它们不断变化的状态(随着文本展开实体携带的信息变化)。
因此,我们扩展了transformer模型来动态地进行实体状态更新和句子实现,以促进叙事性文本的生成。我们提出了一个对比框架来学习离散空间中的状态表征,并在解码器中插入额外的注意力层到解码器中,以更好地利用这些状态。两个叙事性文本数据集上的实验表明,我们的模型比在实体状态指导的强大基线下,可以产生更多连贯和多样化的叙述。
论文地址
https://arxiv.org/abs/2208.03985