论文介绍
自动指标对于开发自然语言生成(NLG)模型至关重要,特别是对于开放式语言生成任务(如故事生成)。然而,观察到现有的自动指标与人类评估的相关性很差。缺乏标准化的基准数据集使得难以全面评估指标的能力并公平地比较不同的指标。因此,我们提出了OpenMEVA,这是一个评估开放式故事生成指标的基准。
OpenMEVA提供了一个全面的测试套件来评估指标的能力,包括:
a) 与人类判断的相关性;
b) 对不同模型输出和数据集的泛化;
c) 判断故事连贯性的能力;
d)对扰动的鲁棒性。
我们评估了OpenMEVA上的现有指标,发现它们与人类判断的相关性较差,无法识别话语级别的不连贯性,并且缺乏推理知识、泛化能力和鲁棒性。我们的研究提出了在进一步研究中开发NLG 模型和指标的见解。
论文地址
https://arxiv.org/abs/2105.08920