原作信息:
题目:Extract, Integrate, Compete: Towards Verification Style Reading Comprehension
作者:Chen Zhang, Yuxuan Lai, Yansong Feng , Dongyan Zhao Wangxuan Institute of Computer Technology, Peking University, China The MOE Key Laboratory of Computational Linguistics, Peking University, China {zhangch, erutan, fengyansong, zhaody} @pku.edu.cn
摘要
在文章中,作者从高考中收集了一个新的验证风格阅读理解数据集,命名为VGaokao。与现有的工作不同,VGaokao数据集最初是为母语使用者的评估而设计的,因此需要更高级的语言理解能力。
为了解决VGaokao中的挑战,我们提出了一种新的提取-集成-竞争方法(Extract-Integrate-Compete approach),该方法使用新的查询更新机制迭代地选择互补证据,并自适应地提取支持性证据,然后进行两两竞争以推送模型以学习相似文本片段之间的细微差异。
实验表明,作者的方法在VGaokao上使用检索到的补充证据,模型优于各种基线,同时具有效率和可解释性的优点。作者的数据集和代码已发布用于进一步研究。
序言
阅读理解经常被用于各种标准化考试中,以评估一个人的语言理解能力,考生需要阅读一篇长文,回答一系列问题,或根据短文验证给定的陈述。例如,在中国高考的语文阅读测试中,大约一半的阅读理解题是验证型的。如表1(底部)所示,要求学生阅读一篇文章,然后从四个选项(A~D)中选择与文章最一致的最佳陈述,或者与文章最接近的陈述。
虽然NLP社区对问答式任务进行了深入研究(Rajpurkar et al., 2016; Lai et al., 2017; Yang et al., 2018; Sun et al., 2020),但验证式MRC任务实际上受到的关注要少得多。在这里,如高考考试大纲中(http://gaokao.neea.edu.cn/)所示,从长篇大论中收集多个证据,提取支持性证据,并通过捕捉相似文本之间的细微差异(即选择)做出相应决定的能力,是学习汉语的必备技能。这类问题实际上为自然语言理解研究提供了一个理想的试验台。
在本文中,作者提出了一个名为VGaokao的验证式阅读理解数据集,以突出上述语言理解挑战。VGaokao是根据历年高考语文真题构建的。图1显示了VGaokao中的一个示例,其中一个语句(4个选项之一)应该根据给定的段落进行验证。因此,我们需要从文章中提取两个证据句子,将它们组合在一起,以检查证据对陈述的支持程度,最后与其他选择进行比较以得出答案。
与C3(Sun et al., 2020)and RACE(Lai et al., 2017)等第二语言学习者测试构建的数据集相比,VGaokao由母语者标准化语言测试构建,涉及更多的语言理解挑战。例如,VGaokao涉及更多的词汇和更复杂的句子结构。此外,VGaokao中近一半的陈述需要多个证据来验证。与FEVER(Thorne et al., 2018),等事实核查任务相比,VGaokao中的大多数陈述既不是绝对正确的,也不是绝对错误的,这需要模型仔细比较一个陈述与另一个陈述,以根据给定的段落选择最合适的答案。
为了解决VGaokao中的上述挑战,我们提出了一种新的提取-集成-竞争(Extract-Integrate-Compete)框架,其中设计了两种查询更新策略,硬遮罩和软遮罩(hard masking and soft masking),以迭代地提取给定语句的多个补充证据。图1显示了一个使用软遮罩来突出显示在当前迭代中尚未找到相应证据的令牌的示例。在证据提取之后,我们自适应地过滤不相关的证据句子,并动态地确定要集成的证据片段的数量。然后根据检索到的证据验证每个问题中的选项,并以成对的方式进行比较,以选择最合理的答案。
作者实证研究了他们的提取-集成-竞争方法在VGaokao上的性能。实验表明,在证据检索F1中,我们的方法优于具有段落分块和各种证据选择方法的端到端方法。证据选择中的性能增益可以进一步传播到最终的问题回答性能。
作者的贡献可以概括为:1)他们提出了一种新的验证式阅读理解数据集VGaokao,它嵌入了更高级的语言理解技能。2) 他们提出了一种新的Extract-Intege-Compete方法,通过新颖的查询更新机制从长文章中迭代选择补充证据。他们基于证据链损失的竞争组件可以推动模型捕捉不同选择之间的细粒度差异。3) 实验表明,他们的方法在VGaokao上的证据检索F1和QA准确性方面都优于各种基线,同时显示了效率和可解释性的优点。
VGaokao:验证风格阅读理解数据集
标准化语言测试被认为是获取机器阅读理解数据集的试验台。虽然大多数现有的工作集中于类似SQuAD的QA数据集(Yang et al., 2018; Kwiatkowski et al., 2019)或完形填空式问题(Zhang et al., 2018; Zheng et al., 2019),但很少涉及对验证式问题的研究。