1.CNN / Daily Mail数据集(英文)
出自论文Hermann et al., 2015的《Teaching machines to read and comprehend.》
这是一个使用启发式方法从CNN和Daily Mail新闻文章中创建的完形填空样式的阅读理解数据集(英文)。Close-style表示必须推断出一个缺失的单词。在本例中,“问题”是通过从总结本文一个或多个方面的要点替换实体而创建的。用实体标记@entityn替换了Coreferent实体,其中n是一个不同的索引。该模型的任务是根据相应文章的内容推断出项目符号中缺失的实体,并根据
accuracy
对模型进行评价。
这个数据集是nlp的机器阅读理解领域比较经典的数据集,很多机器阅读理论文提出的模型都使用了该数据集进行验证比较。
2.Children’s Book Test(英文)
来自论文
[Hill et al., 2016]
的《
The goldilocks principle: Reading children’s books with explicit memory representations.
》
从一本儿童读物中选出
21
个连续的句子。然后,将前
20
个句子视为上下文,问题就是为了推断第
21
个句子中缺少的单词。
3. ChiD(中文)
一个用于完形填空测试的大规模汉语成语数据集 ,有官方数据集和比赛数据集两个。
数据集下载链接:
GitHub - chujiezheng/ChID-Dataset: ChID: A Large-scale Chinese IDiom Dataset for Cloze Test
论文:
ChID: A Large-scale Chinese IDiom Dataset for Cloze Test - ACL Anthology
比赛链接:
Chinese Idiom Understanding Contest - Biendata
4.The LAMBADA dataset
论文:The LAMBADA dataset: Word prediction requiring a broad discourse context(
论文链接
)
英文完形填空式数据集
数据集下载:
The LAMBADA dataset | Zenodo
二、Muti-Choice
(多项选择题)
1. MCTest(英文)
Richardson
等人于
2013
年构建了自神经网络浪潮以来的第一个综合性阅读理解数据集
MCTest
,该数据集包含
660
个虚构故事,每个故事有
4
个问题和
4
个候选答案。
论文:
Mctest: A challenge dataset for the open-domain machine comprehension of text.
2.RACE(英文)
Lai
等人于
2017
年收集了
2
万多篇文章和
10
万多道题目来自中国初高中学生的英语考试,涉及的领域非常广泛。这些问题是由专家提出的,最初是为了检验人类的阅读理解水平。因此,回答这个问题需要机器具备一定的推理能力。
论文:
RACE: large-scale reading comprehension dataset from examinations.
3. AI2 Reasoning Challenge (ARC)
数据集(英文)
这是一个问题回答的英文考试数据集,其中包含
7787个真正的小学水平的多项选择科学问题。
每个问题都有一个选择结构(通常是4个答案选项)。 这些问题被分为一个由2590个“困难”问题(检索和共现方法都不能正确回答的问题)组成的挑战集和一个由5197个问题组成的简单集。 每一个都预先划分为Train、Development和Test集
。模型的评估基于
accuracy
。
获得
ARC
数据集网址:
AI2 Reasoning Challenge (ARC) 2018 Dataset — Allen Institute for AI
(公开网址)
4. CommonsenseQA(英文)
来自于ConceptNet,其包含大约12000个需要结合背景知识的问题。在该数据集中,标注者根据ConceptNet中的实体概念来自由构造问题,来使问题包含人类所具有的、但难以在网络资源中检索到的背景知识,故回答问题需要利用问题、候选答案,以及仅仅使用检索策略无法检索到的背景知识。
论文:
https://arxiv.org/abs/1811.00937
三、Span-Prediction
(片段抽取式)
1. SQuAD(英文)
由
Rajpurkar
等人《
Squad: 100, 000+ questions for machine comprehension of text.
》
2016
年提出的英文阅读理解数据集。
SQuAD
数据集是问答题而非选择题,因此其没有候选答案可以参考,但是其限定了答案为原文中连续的片段。其包含的数据量大于体力劳动者在
536
个维基百科中发现了
10
万个问题。每个问题对应一个特定的段落,问题的答案位于段落的一个跨度上。基于小队的挑战极大地促进了
MRC
的繁荣。
Rajpurkar
等人于
2018
年发布了
SQuAD 2.0
版数据集。
SQuAD
是目前阅读理解领域中最为经典的机器阅读理解英文数据集。许多优秀的论文或者
SOTA
模型(例如
BERT
)都是使用
SQuAD
数据集。
获取
SQuAD 1.0
与
2.0
版官方来源:
https://rajpurkar.github.io/SQuAD-explorer/
2. DuReader(中文)
DuReader是百度在自然语言处理国际顶会 ACL 2018 发布的中文机器阅读理解数据集,所有的问题、原文都来源于百度搜索引擎数据和百度知道问答社区,答案是由人工整理的。实验是在 DuReader 的单文档、抽取类的子集上进行的,训练集包含15763个文档和问题,验证集包含1628个文档和问题,目标是从篇章中抽取出连续片段作为答案。[链接: https://arxiv.org/pdf/1711.05073.pdf]
3. DRCD(繁体中文)
DRCD是台达研究院发布的繁体中文阅读理解数据集,目标是从篇章中抽取出连续片段作为答案。我们在实验时先将其转换成简体中文。
下载链接:
https://github.com/DRCKnowledgeTeam/DRCD
论文:
https://arxiv.org/abs/1806.00920
4.TriviaQA(英文)
包含超过650K个问题-答案-证据三元组。与其他数据集相比,TriviaQA在问题和相应的答案-证据句之间具有相当大的句法和词汇可变性,需要更多的跨句推理才能找到答案。
论文:Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension.
四、生成式阅读理解
1. NarrativeQA(英文)
[Kocisky ' et al., 2018]提出了NarrativeQA,一种更困难的数据集,旨在增加问题的难度,使其不容易找到答案。数据集包含1567个完整的图书和剧本故事。问题和答案是由人类书写的,而且大多是更复杂的形式,比如“当/哪里/谁/为什么”。
2.CoQA(英文)
对话式阅读理解数据集,这跟现实生活又近了一步,是现在研究的热点。CoQA包含约8000轮对话,问题的答案有五种类型,分别为Yes、No、Unknown,文章中的一个span和生成式答案。当根据文章和之前的对话信息无法回答当前问题时,答案为Unknown。该数据集不仅提供答案,而且给出了答案的依据,每一种类型的答案的依据都是文章中的一个span。
可应用于片段抽取式和生成式阅读理解
五、其他形式
1. NLPCC2016-DBQA(中文)
NLPCC2016-DBQA是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务,其目标是从候选中找到合适的文档作为问题的答案。[链接:
http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf
]
六、Reference
[1] A Survey on Neural Machine Reading Comprehension
[2]
阅读理解数据集综述
继续更新中。。。
一、cloze-style(完形填空样式)CNN / Daily Mail数据集出自论文Hermann et al., 2015的《Teaching machines to read and comprehend.》这是一个使用启发式方法从CNN和Daily Mail新闻文章中创建的完形填空样式的阅读理解数据集(英文)。Close-style表示必须推断出一个缺失的单词。在本例中,“问题...
一、
阅读
理解
概述
所谓的
机器
阅读
理解
(Machine Reading Comprehension, MRC)就是给定一篇文章,以及基于文章的一个问题,让
机器
在
阅读
文章后对问题进行作答。
机器
阅读
理解
(MRC)是一项任务,用于测试
机器
通过要求
机器
根据给定的上下文回答问题来
理解
自然语言的程度。早期的MRC系统是基于规则的,性能非常差。随着深度学习和大规模
数据集
的兴起,基于深度学习的MRC显著优于基于规则的MRC。
1、常见任务定义
MRC 的常见任务主要有六个:完形填空、多项选择、片段抽取、
生成式
、会话、多跳推
随着对大语言模型(LLM)评估
领域
的深入研究,我们更加清楚地认识到全面
理解
评估过程中的问题对于有效评估LLM至关重要。
本文探讨了
机器
学习模型评估中出现的常见问题,并深入研究了LLM对模型评估
领域
带来的重大挑战。在评估方法方面,我们将其划分为直接评估指标、基于辅助模型的评估和基于模型的评估。本文还强调了审慎观察复杂评估指标和注意细节的重要性。
以下是译文,Enjoy!
一篇文章对应一个问题,词嵌入之后送入模型,注意就算一篇文章有多个问题,
那么也仍然是一篇文章对应一个问题,如图所示,模型返回的张量shape==(passage_length,1),因为填空式问答只有一个空需要填,所以对应的标签是one_hot形式的张量,只有答案单词那个位置是1。
抽取式
阅读
理解
抽取式
阅读
理解
指的就是从文章中提取出来一段连续的
1、DuReader
数据集
介绍
DuReader,从名字(Du和Reader)就可以看出来,是百度整理出来的
阅读
理解
数据集
。
DuRader
数据集
由一系理的4元组构成,每个4元组 {q,t,D,A}\left\{ q, t,D,A \right\}{q,t,D,A} 就是一条样本,其中, qqq 表示一个问题, ttt 表示问题的类型, DDD 表示问题相关文档集合, AAA 表示一系列答案(由人手工标注)。
它相较于之前
阅读
理解
数据集
,主要有三个特点:
RC研究
领域
多使用范围抽取式方法,
生成式
方法面临开放
领域
训练数据匮乏。本文提出多风格问答
阅读
理解
摘要模型,从问句和多个段落生成指定风格的summary作为答案。
多源摘要: 使用指针生成器机制从问句、多段落中生成多样化风格的答案,并扩展至Transformer,允许生不成器词表,或从问句、段落原文中复制信息生成答案;
多风格学习: 控制答案输出样式,满足RC所有形式输出,引入风格化的人工token扩展指针生成器为条件解码器,给定风格下,每一步解码控制三个分布占解码输出的权重;
问题形式化
给定含JJJ个
本文是一篇资源论文,主要发布了用于检索式问答或
阅读
理解
的
数据集
Trivia QA;
对该
数据集
的质量和数量进行了分析,并创建了baseline,用于具体评估
数据集
的质量。
2 Trivia QA
数据集
的特点
问题比较复杂
在问题和相应的答案句子中有大量的句法或词汇变化
需要更多的跨句推理来得到答案
3 本文的主要贡献
发布了一个
阅读
理解
数据集
提出了分析量化
数据集
...
引用:https://www.cnblogs.com/demo-deng/p/12411760.html
项目地址:https://github.com/chineseGLUE/chineseGLUE
ChineseGLUE 是一个中文语言
理解
测评基准,思路源于 GLUE,包括:
1)中文任务的基准测试,覆盖多个不同程度的语言任务
一个包含若干句子或句子对语言
理解
任务的基准。当前,这些任务中使用的
数据集
是公开的,2019 年底前将收录具备私有测试集的
数据集
。
2)公开的排行榜
一个用于性能跟踪的公开排行
SQuAD(Standford Question Answering Dataset) task:问答匹配任务
MNLI (Multi-Genre Natural Language Inference): 判断句子相近、矛盾或无关
QNLI:Question-answeri...
在
机器
学习
领域
,使用的隐私政策
数据集
有很多,其中一些比较著名的包括:
- 关于隐私的隐私政策
数据集
(PPDP):这是一个可以用于自然语言处理(
NLP
)和隐私政策分类的
数据集
,包含了超过11,000份来自网络上的隐私政策的文本,并且标注了它们的类别。
- 自然语言隐私政策
数据集
(
NLP
PPD):这是一个用于自然语言处理的
数据集
,包含了超过5,000份来自互联网隐私政策的文本,并且标注了它们的类别。
- 隐私政策
数据集
(PPD):这是一个用于隐私政策分类的
数据集
,包含了超过7,000份来自网络的隐私政策的文本,并且标注了它们的类别。
- 隐私政策约束
数据集
(PPCD):这是一个用于自然语言处理和隐私政策分类的
数据集
,包含了超过5,000份来自网络的隐私政策的文本,并且标注了它们的类别。
- 网络隐私政策
数据集
(NPPD):这是一个用于自然语言处理的数据
The current process just got forked. Disabling parallelism to avoid deadlocks.To disable this warnin
BAOYANG dl:
教务管理系统JavaWeb项目
qq_53099871:
教务管理系统JavaWeb项目
教务管理系统JavaWeb项目
m0_71547801: