ca88手机版登录官网资源 | 让AI学会刨根问底和放自我,斯坦福时问答数据集CoQA

本题:资源 | 让AI学会刨根问底和释放自我,斯坦福时问答数据集CoQA

选自arXiv

作者:**Siva Reddy、Danqi Chen、Christopher D. Manning
**

参与:白悦、王淑婷

style=”font-size: 16px;”>以往的对话问答数据集,大多将答案限定于了深受定段落的界定外,这种答案有时候不仅不自然,而且还要依靠问题跟段中的词汇相似性。导致机器有时答非所咨询,显得有些傻。本文提出的一样种植时髦对话数据集
CoQA,囊括来自 7 只不等世界的文本段落里 8000 独对话中之 127,000
轱辘问答,内容丰富。而且该问答系统支持自由形式之答案,使机器回答问题不再那么相同板一双眼,而是灵活多样。

咱俩普通为咨询的计来为他人求解或测试对方。然后因对方的回应,我们会持续问,然后他们以因之前的座谈来报。这种循序渐进的方法若对话变得简洁明了。无法树立与维持这种问答方式是编造助手无法成为可靠对话伙伴的组成部分原因。本文提出了
CoQA,一个衡量机器与问答式对话能力的对话问答数据集。在 CoQA
中,机器要了解文本段落并回对话中冒出的同样多样题材。研究人员开 CoQA
时主要考虑了三单重要对象。

ca88手机版登录官网 1

贪图 1:CoQA
数据集中的一个对话。每个回合都含有一个问题(Qi),一个答案(Ai)和支撑答案的理由(Ri)。

率先使考虑的是全人类对话中问题的性质。图 1
显了方阅读文章的少数个人口中间的对话,其中一个吗提问者,另一个吗回答者。在本次对话中,第一独问题下的每个问题且是冲之前的对话。例如,Q5(Who?)只生一个单词,如果非懂得前的对话是休可能回的。提出简短的题目针对性人类来说是相同栽中之关联方式,但针对机器来说倒是同样种植切肤之痛。众所周知,即使是不过先进的模型在生特别程度达啊只要依让问题及段中的词汇相似性(Chen
et al., 2016; Weissenborn et al.,
2017)。而眼下,包含基于对话历史的题材的大阅读理解数据集(见表
1)仍未出现,而当时多亏 CoQA 的基本点出目的。

ca88手机版登录官网 2

表 1:CoQA
与存活大型阅读理解数据集的于(约 10 万多个问题)。

CoQA
的第二单目标是保险对话中答案的自然性。很多现有的 QA
数据集把答案限制在让定段落的总是范围外,也吃喻为可提答案(表
1)。这样的答案有时候不是很当然,例如,图 1 备受 Q4(How
many?)就不曾但领取答案。在 CoQA
中,答案可以是任意形式之文书(抽象答案),而提取跨度则作为实际上答案的参考。因此,Q4
的答案则只是简单的『Three』,但可是参考多句子话所查获的下结论。

CoQA 的老三独对象是构建跨域稳定履之 QA
系统。当前之 QA
数据集主要集中在单个域上,所以难以测试现有模型的泛化能力。因此,研究人员自七个例外之小圈子收集数据集——儿童故事、文学、中学和高中英语考试、新闻、维基百科、科学与
Reddit。最后两独用于域外评估。

总的说来,CoQA 具有以下重点特点:

  • 通过文件段落从 8000 单对话中搜集了 127,000
    轮子问答(每段约一个会话)。平均会话长度为 15
    回合,每回合包含一个问题以及一个答案。
  • 随意形式之答案。每个答案都发出一个提取理由,在段中崛起展示。
  • 文件段落来自七只例外之小圈子——五独用于域内评估,两独用于域外评估。

几有一半的 CoQA
问题采取并乘涉嫌回顾到会说话历史,并且充分要命一部分用语用推理,这招仅依靠词汇线索的范更拥有挑战性。研究人口针对转移抽象答案和可领取答案(第
5
节)的深神经网络模型进行了格测试。表现最佳的网是平栽好预计提取原理,并以原理进一步输入生成最终答案的行及队模型中的看理解模型,该读理解模型获得
65.1%的 F1 分数。相比之下,人类实现了 88.8%底 F1,比模型高出了
23.7%,这标志其发出深挺之晋级空间。此外,人类的有力表现表明,与闲聊对话(它支持再次可靠的机动评估)相比,CoQA
的答应空间要有些得几近(Ritter et al., 2011; Vinyals and Le, 2015; Sordoni
et al., 2015)。

论文:CoQA: A Conversational Question
Answering Challenge

ca88手机版登录官网 3

论文地址:https://arxiv.org/abs/1808.07042

摘要:人类通过与一多重问题跟答案相关联的对话来采访信息。因此协助我们采访信息之机器,也要能够对对话问题。我们介绍了一个用来构建对话问答系统的新数据集
CoQA。该数据集带有来自 7 单不等领域的文件段落里 8000 只对话中之 127,000
轮问答。问题是会见说话形式,而答案是随意形式的文件,并在段中崛起展示相应的基于。我们深切剖析了
CoQA,发现会话问题有着现有阅读理解数据集所没有底挑战性现象,例如合乘涉与实用推理。我们于
CoQA 上评估强大的对话与读书理解模型。表现最佳的网获得了 65.1%之 F1
分数,与人类比低了
23.7%,这表明其起深怪的改良空间。作为一如既往种挑战,我们在_this http URL
(http://stanfordnlp.github.io/coqa/)\_社区上推出了 CoQA。

职责定义

对此图 2 中之演示,对话从问题 Q1
始于。我们根据段落中之因 R1 用 A1 回答 Q1。在是事例中,回答者仅仅写了
Governor 作为答案,但挑选了那个丰富之基于——「The Virginia governor’s
race」。

下面来拘禁
Q2(Where?),我们亟须回顾对话历史,否则它们的答案可能是 Virginia 或
Richmond
或其他。在咱们的天职中,回答多问题且待对话历史。我们以对话历史 Q1
跟 A1,基于依据 R2 所以 A2 回答 Q2。按公式来讲,回答问题 Qn 要基于对话历史
Q1,A1
……Qn-1,An-1。对于一个无法回答的题目,我们将未知作为最后答案,并且不挑任何理由。

以斯事例中,我们着眼到热点实体(entity
of focus)随着对话的拓展而改变。提问者使用 his 指代 Q4 中之 Terry,he
指代 Q5 中的
Ken。如果这些题材得无顶解决,我们最终用见面获错误答案。问题的对话性质要求我们根据多独句子(当前题材及之前的问题还是答案,以及段落中的句子)来演绎。通常,单个问题之参照可能会见超过多独句子(例如,图
1 遭遇之 Q1,Q4 和 Q5)。我们以第 4 节受讲述了别样问答类型。

ca88手机版登录官网 4

贪图
2:用不同的颜色代表并乘关系链的对话。焦点实体在 Q4,Q5,Q6
中发生变化。

ca88手机版登录官网 5

表明 2:CoQA 中域的布

多少集分析

ca88手机版登录官网 6

图 3:SQUAD 和 CoQA
里问题遭受前三单词的布状况。

ca88手机版登录官网 7

表 3:SQUAD 和 CoQA
中段落、问题跟答案的平均单词数。

ca88手机版登录官网 8

表 4:SQuAD 和 CoQA
中答案类型的遍布。

ca88手机版登录官网 9

说明 5:CoQA 问题备受的言语现象。

ca88手机版登录官网 10


6:模型和人类在开数据ca88手机版登录官网与测试数据达的见(F1 得分)。

表 6
列有了范在开数据以及测试数据及的结果。根据测试集齐之结果,seq2seq
模子表现无与伦比差,有些答案不管生没有起起于段中,都见面一再出现,这是一样种植引人注目的对话模型行为(Li
et al., 2016)。PGNet 通过关心文章被之词汇来解决反应频繁的题目,优于
seq2seq 17.8 单百分点。然而,它还是滞后于 DrQA 8.5 独百分点。原因或许是
PGNet 在应问题之前要牢记整个段落,而 DrQA 避免了这项巨大开销。但
DrQA 在还原自由形式答案的题目常常未美(参见表 7 中之 Abstractive
行)。当 DrQA 被输入 PGNet 时,我们授权 DrQA 和 PGNet – DrQA
生成自由形式的答案; PGNet 专注让参照而休是段子。这种重组于经典 PGNet 和
DrQA 模型分别要强 21.0% 和 12.5%。

结论

在本文中,我们介绍了
CoQA,一个用来构建对话问答系统的特大型数据集。与存活的阅读理解数据集不同,CoQA
包含对话问题,自然答案,作为参照的提取跨度,以及源于不同世界的公文段落。我们的尝试表明,现有的对话同读书理解模型在
CoQA
上的呈现不如人类。我们想这项工作能刺激更多关于会话建模的研究,这是兑现人机自然相的关键因素。

本文为机的心编译,转载请联系仍公众号取授权。回到搜狐,查看更多

责任编辑:

发表评论

电子邮件地址不会被公开。 必填项已用*标注