Dialogue Distillation: Open-domain Dialogue Augmentation Using Unpaired Data

发布:2023-01-10 10:13:54
阅读:3486
作者:张荣升、郑银河、邵建智、毛晓曦、席亚东、黄民烈
分享:复制链接

论文介绍

目前的对话系统模型的性能通常依赖于大规模的对话语料。通常来说,搜集高质量、大规模的对话语料通常是耗时耗力的,但是非对齐的句子在互联网上相对来说是容易搜集的,所以这篇文章提出了一种利用非对齐的句子进行对话增强的方法。

该过程主要包含data-level distillation和model-level distillation两个部分,其中data-level distillation模块利用非对齐的句子构造伪对齐语料来增强对话数据,伪对齐语料的post和response都是来自于非对齐的句子。model-level distillation是为了利用在高质量对齐对话语料上训练的teacher模型,指导增强的对话语料上训练的模型,防止其受构造的伪平行对话语料的噪声影响。

论文地址

https://arxiv.org/abs/2009.09427

扫码进群
微信群
免费体验AI服务