ca88手机版登录官网资源 | 让AI学会刨根问底和假释自我,斯坦福时问答数据集CoQA

原先题:资源 | 让AI学会刨根问底和刑满释放自我,斯坦福时问答数据集CoQA

选自arXiv

作者:**Siva Reddy、Danqi Chen、Christopher D. Manning
**

参与:白悦、王淑婷

style=”font-size: 16px;”>以往的对话问答数据集,大多将答案限定于了让定段落的克外,这种答案有时候不仅未自,而且还要靠问题与段中的词汇相似性。导致机器有时答非所咨询,显得有点傻。本文提出的同样栽时对话数据集
CoQA,囊括来自 7 单不同领域的文件段落里 8000 只对话中的 127,000
轮问答,内容丰富。而且该问答系统支持自由形式的答案,使机器回答问题不再那么等同板一眼,而是灵活多样。

我们便因为咨询的章程来为旁人求解或测试对方。然后根据对方的应,我们见面延续问,然后他们还要根据前的讨论来回答。这种循序渐进的措施如对话变得简洁明了。无法建立和保持这种问答方式是杜撰助手无法变成可靠对话伙伴的部分由。本文提出了
CoQA,一个权衡机器与问答式对话能力的对话问答数据集。在 CoQA
中,机器要掌握文本段落并报对话中出现的同多元问题。研究人口开 CoQA
时主要考虑了三独重要目标。

ca88手机版登录官网 1

祈求 1:CoQA
数据汇总之一个会话。每个回合都饱含一个题材(Qi),一个答案(Ai)和支撑答案的说辞(Ri)。

首先要考虑的是全人类对话中问题的性质。图 1
著了在阅读文章的星星点点个人之间的对话,其中一个也提问者,另一个吗回答者。在此次对话中,第一独问题后的每个问题且是依据前的对话。例如,Q5(Who?)只来一个单词,如果非掌握前面的对话是休容许报的。提出简短的题材对全人类来说是相同种有效的关联方式,但对机械来说倒是同样种植切肤之痛。众所周知,即使是极其先进的模型在那个充分程度达到啊如拄让问题跟段中的词汇相似性(Chen
et al., 2016; Weissenborn et al.,
2017)。而眼下,包含基于对话历史的题材之大阅读理解数据集(见表
1)仍未出现,而当时正是 CoQA 的首要出目的。

ca88手机版登录官网 2

表 1:CoQA
与现有大型阅读理解数据集的比(约 10 万多个问题)。

CoQA
的次只目标是保险对话中答案的自然性。很多存世的 QA
数据集把答案限制于为定段落的连天范围外,也深受名可提答案(表
1)。这样的答案有时候不是怪自然,例如,图 1 遭遇 Q4(How
many?)就没但提答案。在 CoQA
中,答案可以是轻易形式的公文(抽象答案),而提跨度则作为实际上答案的参照。因此,Q4
的答案则只是略的『Three』,但却是参考多句话所查获的定论。

CoQA 的老三单目标是构建跨域稳定履的 QA
系统。当前底 QA
数据集主要集中在单个域上,所以不便测试现有模型的泛化能力。因此,研究人员由七个不同之世界收集数据集——儿童故事、文学、中学与高中英语考试、新闻、维基百科、科学和
Reddit。最后两个用于域外评估。

总而言之,CoQA 具有以下重点特征:

  • 经过文件段落从 8000 单对话中采集了 127,000
    轮子问答(每段约一个会话)。平均会话长度为 15
    回合,每回合包含一个题材及一个答案。
  • 擅自形式之答案。每个答案都发生一个领取理由,在段中崛起展示。
  • 文本段落来自七独不等的世界——五独用于域内评估,两个用于域外评估。

差一点有一半之 CoQA
问题用并乘涉回顾至会讲话历史,并且特别非常组成部分待语用推理,这造成仅凭借词汇线索的模型更有挑战性。研究人口对转移抽象答案和可领答案(第
5
节)的纵深神经网络模型进行了规范测试。表现最佳的系统是同栽好预计提取原理,并以原理进一步输入生成最终答案的班及队模型中的看理解模型,该读理解模型获得
65.1%的 F1 分。相比之下,人类实现了 88.8%之 F1,比模型高出了
23.7%,这标志它产生深充分之升级空间。此外,人类的强劲表现表明,与闲聊对话(它支持再次可靠的机关评估)相比,CoQA
的对空间要稍得几近(Ritter et al., 2011; Vinyals and Le, 2015; Sordoni
et al., 2015)。

论文:CoQA: A Conversational Question
Answering Challenge

ca88手机版登录官网 3

论文地址:https://arxiv.org/abs/1808.07042

摘要:人类通过与一系列问题跟答案相关联的对话来收集信息。因此协助我们收集信息的机器,也要能够应对对话问题。我们介绍了一个用以构建对话问答系统的新数据集
CoQA。该数额集带有来自 7 独不等领域的公文段落里 8000 个对话中的 127,000
车轮问答。问题是会讲话形式,而答案是自由形式的文本,并以段中崛起展示相应的依据。我们深刻剖析了
CoQA,发现会话问题负有现有阅读理解数据集所没有的挑战性现象,例如合乘涉嫌以及实用推理。我们在
CoQA 上评估强大的对话同阅读理解模型。表现最佳的体系得到了 65.1%底 F1
分,与人类比没有了
23.7%,这标志它起良老之改善空间。作为同一栽挑战,我们当_this http URL
(http://stanfordnlp.github.io/coqa/)\_社区上推出了 CoQA。

任务定义

于图 2 中的言传身教,对话从问题 Q1
始发。我们根据段落中的基于 R1 用 A1 回答 Q1。在斯例子中,回答者单独写了
Governor 作为答案,但选择了杀丰富的依据——「The Virginia governor’s
race」。

脚来拘禁
Q2(Where?),我们亟须回顾对话历史,否则她的答案恐怕是 Virginia 或
Richmond
或任何。在我们的任务中,回答多题材还亟需对话历史。我们下对话历史 Q1
暨 A1,基于依据 R2 据此 A2 回答 Q2。按公式来讲,回答问题 Qn 要依据对话历史
Q1,A1
……Qn-1,An-1。对于一个无法回答的题材,我们将未知作为最后答案,并且不选择任何理由。

以斯事例中,我们着眼到热点实体(entity
of focus)随着对话的进行而变更。提问者使用 his 指代 Q4 中之 Terry,he
指代 Q5 中的
Ken。如果这些题材得无至解决,我们最后用见面赢得错误答案。问题之对话性质要求我们根据多个词(当前问题同事先的问题要么答案,以及段落中的语句)来演绎。通常,单个问题ca88手机版登录官网之参考可能会见超越多单句子(例如,图
1 遭到之 Q1,Q4 和 Q5)。我们当第 4 节受到描述了其他问答类型。

ca88手机版登录官网 4

希冀
2:用不同的颜料代表并乘关系链的对话。焦点实体在 Q4,Q5,Q6
中发生变化。

ca88手机版登录官网 5

说明 2:CoQA 中域的布

多少集分析

ca88手机版登录官网 6

祈求 3:SQUAD 和 CoQA
里问题中前三独词的分布状况。

ca88手机版登录官网 7

表 3:SQUAD 和 CoQA
中段落、问题以及答案的平分单词数。

ca88手机版登录官网 8

说明 4:SQuAD 和 CoQA
中答案类型的遍布。

ca88手机版登录官网 9

申 5:CoQA 问题被的语言现象。

ca88手机版登录官网 10

说明
6:模型和人类在开发数据与测试数据及的表现(F1 得分)。

表 6
列有了型在出数据和测试数据上之结果。根据测试集及的结果,seq2seq
型表现无与伦比差,有些答案不管生没有发出现在段中,都见面频繁出现,这是平等种植强烈的对话模型行为(Li
et al., 2016)。PGNet 通过关心文章被的歌词汇来解决反应频繁之题目,优于
seq2seq 17.8 独百分点。然而,它还是滞后于 DrQA 8.5 单百分点。原因或许是
PGNet 在回答问题之前务必铭记整个段落,而 DrQA 避免了这项巨大开销。但
DrQA 在恢复自由形式答案的题目时常无优秀(参见表 7 中的 Abstractive
行)。当 DrQA 被输入 PGNet 时,我们授权 DrQA 和 PGNet – DrQA
生成自由形式的答案; PGNet 专注于参照而不是段子。这种做比较经典 PGNet 和
DrQA 模型分别要强 21.0% 和 12.5%。

结论

于本文中,我们介绍了
CoQA,一个用于构建对话问答系统的重型数据集。与现有的读理解数据集不同,CoQA
包含对话问题,自然答案,作为参考的提跨度,以及来自不同领域的文本段落。我们的试行表明,现有的对话和阅读理解模型在
CoQA
上之显现不如人类。我们想这项工作能够刺激更多关于会话建模的钻研,这是促成人机自然相的关键因素。

正文也机械的心编译,转载请联系仍公众号取授权。回搜狐,查看更多

责任编辑:

发表评论

电子邮件地址不会被公开。 必填项已用*标注