NLP领域的机器阅读理解方向的数据集总结_生成式阅读理解_TanH ...

1.CNN / Daily Mail数据集（英文）

出自论文Hermann et al., 2015的《Teaching machines to read and comprehend.》

这是一个使用启发式方法从CNN和Daily Mail新闻文章中创建的完形填空样式的阅读理解数据集（英文）。Close-style表示必须推断出一个缺失的单词。在本例中，“问题”是通过从总结本文一个或多个方面的要点替换实体而创建的。用实体标记@entityn替换了Coreferent实体，其中n是一个不同的索引。该模型的任务是根据相应文章的内容推断出项目符号中缺失的实体，并根据 accuracy 对模型进行评价。

这个数据集是nlp的机器阅读理解领域比较经典的数据集，很多机器阅读理论文提出的模型都使用了该数据集进行验证比较。

2.Children’s Book Test（英文）

来自论文 [Hill et al., 2016] 的《 The goldilocks principle: Reading children’s books with explicit memory representations. 》

从一本儿童读物中选出 21 个连续的句子。然后，将前 20 个句子视为上下文，问题就是为了推断第 21 个句子中缺少的单词。

3. ChiD（中文）

一个用于完形填空测试的大规模汉语成语数据集，有官方数据集和比赛数据集两个。

数据集下载链接： GitHub - chujiezheng/ChID-Dataset: ChID: A Large-scale Chinese IDiom Dataset for Cloze Test

论文： ChID: A Large-scale Chinese IDiom Dataset for Cloze Test - ACL Anthology

比赛链接： Chinese Idiom Understanding Contest - Biendata

4.The LAMBADA dataset

论文：The LAMBADA dataset: Word prediction requiring a broad discourse context（论文链接）

英文完形填空式数据集

数据集下载： The LAMBADA dataset | Zenodo

二、Muti-Choice （多项选择题）

1. MCTest（英文）

Richardson 等人于 2013 年构建了自神经网络浪潮以来的第一个综合性阅读理解数据集 MCTest ，该数据集包含 660 个虚构故事，每个故事有 4 个问题和 4 个候选答案。

论文： Mctest: A challenge dataset for the open-domain machine comprehension of text.

2.RACE（英文）

Lai 等人于 2017 年收集了 2 万多篇文章和 10 万多道题目来自中国初高中学生的英语考试，涉及的领域非常广泛。这些问题是由专家提出的，最初是为了检验人类的阅读理解水平。因此，回答这个问题需要机器具备一定的推理能力。

论文： RACE: large-scale reading comprehension dataset from examinations.

3. AI2 Reasoning Challenge (ARC) 数据集（英文）

这是一个问题回答的英文考试数据集，其中包含 7787个真正的小学水平的多项选择科学问题。每个问题都有一个选择结构(通常是4个答案选项)。这些问题被分为一个由2590个“困难”问题(检索和共现方法都不能正确回答的问题)组成的挑战集和一个由5197个问题组成的简单集。每一个都预先划分为Train、Development和Test集。模型的评估基于 accuracy 。

获得 ARC 数据集网址： AI2 Reasoning Challenge (ARC) 2018 Dataset — Allen Institute for AI （公开网址）

4. CommonsenseQA（英文）

来自于ConceptNet，其包含大约12000个需要结合背景知识的问题。在该数据集中，标注者根据ConceptNet中的实体概念来自由构造问题，来使问题包含人类所具有的、但难以在网络资源中检索到的背景知识，故回答问题需要利用问题、候选答案，以及仅仅使用检索策略无法检索到的背景知识。

论文： https://arxiv.org/abs/1811.00937

三、Span-Prediction （片段抽取式）

1. SQuAD（英文）

由 Rajpurkar 等人《 Squad: 100, 000+ questions for machine comprehension of text. 》 2016 年提出的英文阅读理解数据集。 SQuAD 数据集是问答题而非选择题，因此其没有候选答案可以参考，但是其限定了答案为原文中连续的片段。其包含的数据量大于体力劳动者在 536 个维基百科中发现了 10 万个问题。每个问题对应一个特定的段落，问题的答案位于段落的一个跨度上。基于小队的挑战极大地促进了 MRC 的繁荣。

Rajpurkar 等人于 2018 年发布了 SQuAD 2.0 版数据集。 SQuAD 是目前阅读理解领域中最为经典的机器阅读理解英文数据集。许多优秀的论文或者 SOTA 模型（例如 BERT ）都是使用 SQuAD 数据集。

获取 SQuAD 1.0 与 2.0 版官方来源： https://rajpurkar.github.io/SQuAD-explorer/

2. DuReader（中文）

DuReader是百度在自然语言处理国际顶会 ACL 2018 发布的中文机器阅读理解数据集，所有的问题、原文都来源于百度搜索引擎数据和百度知道问答社区，答案是由人工整理的。实验是在 DuReader 的单文档、抽取类的子集上进行的，训练集包含15763个文档和问题，验证集包含1628个文档和问题，目标是从篇章中抽取出连续片段作为答案。[链接: https://arxiv.org/pdf/1711.05073.pdf]

3. DRCD（繁体中文）

DRCD是台达研究院发布的繁体中文阅读理解数据集，目标是从篇章中抽取出连续片段作为答案。我们在实验时先将其转换成简体中文。

下载链接: https://github.com/DRCKnowledgeTeam/DRCD

论文： https://arxiv.org/abs/1806.00920

4.TriviaQA（英文）

包含超过650K个问题-答案-证据三元组。与其他数据集相比，TriviaQA在问题和相应的答案-证据句之间具有相当大的句法和词汇可变性，需要更多的跨句推理才能找到答案。

论文：Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension.

四、生成式阅读理解

1. NarrativeQA（英文）

[Kocisky ' et al.， 2018]提出了NarrativeQA，一种更困难的数据集，旨在增加问题的难度，使其不容易找到答案。数据集包含1567个完整的图书和剧本故事。问题和答案是由人类书写的，而且大多是更复杂的形式，比如“当/哪里/谁/为什么”。

2.CoQA（英文）

对话式阅读理解数据集，这跟现实生活又近了一步，是现在研究的热点。CoQA包含约8000轮对话，问题的答案有五种类型，分别为Yes、No、Unknown，文章中的一个span和生成式答案。当根据文章和之前的对话信息无法回答当前问题时，答案为Unknown。该数据集不仅提供答案，而且给出了答案的依据，每一种类型的答案的依据都是文章中的一个span。

可应用于片段抽取式和生成式阅读理解

五、其他形式

1. NLPCC2016-DBQA（中文）

NLPCC2016-DBQA是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务，其目标是从候选中找到合适的文档作为问题的答案。[链接: http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf ]

六、Reference

[1] A Survey on Neural Machine Reading Comprehension
[2] 阅读理解数据集综述

继续更新中。。。

一、cloze-style(完形填空样式)CNN / Daily Mail数据集出自论文Hermann et al., 2015的《Teaching machines to read and comprehend.》这是一个使用启发式方法从CNN和Daily Mail新闻文章中创建的完形填空样式的阅读理解数据集（英文）。Close-style表示必须推断出一个缺失的单词。在本例中，“问题...

一、阅读理解概述所谓的机器阅读理解（Machine Reading Comprehension, MRC）就是给定一篇文章，以及基于文章的一个问题，让机器在阅读文章后对问题进行作答。机器阅读理解（MRC）是一项任务，用于测试机器通过要求机器根据给定的上下文回答问题来理解自然语言的程度。早期的MRC系统是基于规则的，性能非常差。随着深度学习和大规模 数据集 的兴起，基于深度学习的MRC显著优于基于规则的MRC。 1、常见任务定义 MRC 的常见任务主要有六个：完形填空、多项选择、片段抽取、 生成式 、会话、多跳推

随着对大语言模型（LLM）评估领域的深入研究，我们更加清楚地认识到全面理解评估过程中的问题对于有效评估LLM至关重要。本文探讨了机器学习模型评估中出现的常见问题，并深入研究了LLM对模型评估领域带来的重大挑战。在评估方法方面，我们将其划分为直接评估指标、基于辅助模型的评估和基于模型的评估。本文还强调了审慎观察复杂评估指标和注意细节的重要性。以下是译文，Enjoy!

一篇文章对应一个问题，词嵌入之后送入模型，注意就算一篇文章有多个问题，那么也仍然是一篇文章对应一个问题，如图所示，模型返回的张量shape==(passage_length,1)，因为填空式问答只有一个空需要填，所以对应的标签是one_hot形式的张量，只有答案单词那个位置是1。抽取式阅读理解抽取式阅读理解指的就是从文章中提取出来一段连续的 1、DuReader 数据集 介绍 DuReader，从名字（Du和Reader）就可以看出来，是百度整理出来的阅读理解 数据集 。 DuRader 数据集 由一系理的4元组构成，每个4元组 {q,t,D,A}\left\{ q, t,D,A \right\}{q,t,D,A} 就是一条样本，其中， qqq 表示一个问题， ttt 表示问题的类型， DDD 表示问题相关文档集合， AAA 表示一系列答案（由人手工标注）。它相较于之前阅读理解 数据集 ，主要有三个特点：

RC研究领域多使用范围抽取式方法， 生成式 方法面临开放领域训练数据匮乏。本文提出多风格问答阅读理解摘要模型，从问句和多个段落生成指定风格的summary作为答案。多源摘要：使用指针生成器机制从问句、多段落中生成多样化风格的答案，并扩展至Transformer，允许生不成器词表，或从问句、段落原文中复制信息生成答案；多风格学习：控制答案输出样式，满足RC所有形式输出，引入风格化的人工token扩展指针生成器为条件解码器，给定风格下，每一步解码控制三个分布占解码输出的权重；问题形式化给定含JJJ个

本文是一篇资源论文，主要发布了用于检索式问答或阅读理解的 数据集 Trivia QA；对该 数据集 的质量和数量进行了分析，并创建了baseline，用于具体评估 数据集 的质量。 2 Trivia QA 数据集 的特点问题比较复杂在问题和相应的答案句子中有大量的句法或词汇变化需要更多的跨句推理来得到答案 3 本文的主要贡献发布了一个阅读理解 数据集 提出了分析量化 数据集 ...

引用：https://www.cnblogs.com/demo-deng/p/12411760.html 项目地址：https://github.com/chineseGLUE/chineseGLUE ChineseGLUE 是一个中文语言理解测评基准，思路源于 GLUE，包括： 1）中文任务的基准测试，覆盖多个不同程度的语言任务一个包含若干句子或句子对语言理解任务的基准。当前，这些任务中使用的 数据集 是公开的，2019 年底前将收录具备私有测试集的 数据集 。 2）公开的排行榜一个用于性能跟踪的公开排行

SQuAD(Standford Question Answering Dataset) task:问答匹配任务 MNLI (Multi-Genre Natural Language Inference): 判断句子相近、矛盾或无关 QNLI：Question-answeri...

在机器学习领域，使用的隐私政策 数据集 有很多，其中一些比较著名的包括： - 关于隐私的隐私政策 数据集 （PPDP）：这是一个可以用于自然语言处理（ NLP ）和隐私政策分类的 数据集 ，包含了超过11,000份来自网络上的隐私政策的文本，并且标注了它们的类别。 - 自然语言隐私政策 数据集 （ NLP PPD）：这是一个用于自然语言处理的 数据集 ，包含了超过5,000份来自互联网隐私政策的文本，并且标注了它们的类别。 - 隐私政策 数据集 （PPD）：这是一个用于隐私政策分类的 数据集 ，包含了超过7,000份来自网络的隐私政策的文本，并且标注了它们的类别。 - 隐私政策约束 数据集 （PPCD）：这是一个用于自然语言处理和隐私政策分类的 数据集 ，包含了超过5,000份来自网络的隐私政策的文本，并且标注了它们的类别。 - 网络隐私政策 数据集 （NPPD）：这是一个用于自然语言处理的数据

The current process just got forked. Disabling parallelism to avoid deadlocks.To disable this warnin BAOYANG dl: 为什么会出现这个问题，什么情况下会出现死锁教务管理系统JavaWeb项目 qq_53099871: 账号密码是多少啊教务管理系统JavaWeb项目你好大佬，想问一下你的文件是在哪里连接的mysql数据库呀？看了好久没找到orz 教务管理系统JavaWeb项目 m0_71547801: 可以分享一下吗？[email protected]，非常感谢！！！