LOT: A Benchmark for Evaluating Chinese Long Text Understanding and Generation.

发布:2023-01-13 10:22:28
阅读:20501
作者:Jian Guan, Zhuoer Feng,Yamei Chen,Ruilin He,Xiaoxi
分享:复制链接

论文介绍

标准的多任务基准对于开发可推广到各种下游任务的预训练模型至关重要。现有的自然语言处理(NLP)基准通常只关注理解或生成短文本。然而,与短文本相比,长文本建模需要许多不同的能力,例如对长距离话语和常识关系的建模,以及生成的连贯性和可控性。由于缺乏标准化的基准,很难评估一个模型的这些能力,也很难公平地比较不同的模型。

因此,我们提出了一个名为LOT的以故事为中心的基准来评估中文长文本建模,该基准聚合了两个理解任务和两个生成任务。我们基于数百个单词的中文故事,为这些任务构建了新的数据集。此外,我们发布了一个基于编码器-解码器的中文长文本预训练模型LongLM,该模型具有多达10亿个参数。我们使用两个生成任务(包括文本填充和条件延续)在120G中文小说上预处理LongLM。大量实验表明,LongLM在LOT中的理解和生成任务上都大大优于类似大小的预训练模型。

论文地址

https://arxiv.org/abs/2108.12960

扫码进群
微信群
免费体验AI服务