Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1526–1550 of 1760 papers

Title	Date	Tasks	Status	Hype
Benben: A Chinese Intelligent Conversational Robot	Jul 1, 2017	Chinese Word SegmentationDependency Parsing	—Unverified	0
Evaluation Metrics for Machine Reading Comprehension: Prerequisite Skills and Readability	Jul 1, 2017	Coreference ResolutionMachine Reading Comprehension	—Unverified	0
Apples to Apples: Learning Semantics of Common Entities Through a Novel Comprehension Task	Jul 1, 2017	BenchmarkingPart-Of-Speech Tagging	—Unverified	0
Coarse-to-Fine Question Answering for Long Documents	Jul 1, 2017	Question AnsweringReading Comprehension	—Unverified	0
Gated Self-Matching Networks for Reading Comprehension and Question Answering	Jul 1, 2017	Question AnsweringReading Comprehension	—Unverified	0
A Constituent-Centric Neural Architecture for Reading Comprehension	Jul 1, 2017	Machine Reading ComprehensionQuestion Answering	—Unverified	0
Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension	Jun 29, 2017	Reading ComprehensionTransfer Learning	CodeCode Available	0
S-Net: From Answer Extraction to Answer Generation for Machine Reading Comprehension	Jun 15, 2017	Answer GenerationMachine Reading Comprehension	—Unverified	0
Neural Models for Key Phrase Detection and Question Generation	Jun 14, 2017	Question AnsweringQuestion Generation	—Unverified	0
Recipes for Translating Big Data Machine Reading to Executable Cellular Signaling Models	Jun 13, 2017	Reading Comprehension	—Unverified	0
Zero-Shot Relation Extraction via Reading Comprehension	Jun 13, 2017	Reading ComprehensionRelation	CodeCode Available	1
A Joint Model for Question Answering and Question Generation	Jun 5, 2017	Question AnsweringQuestion Generation	—Unverified	0
Learning to Compute Word Embeddings On the Fly	Jun 1, 2017	Language ModelingLanguage Modelling	—Unverified	0
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension	May 9, 2017	Reading ComprehensionSentence	CodeCode Available	1
Reinforced Mnemonic Reader for Machine Reading Comprehension	May 8, 2017	Machine Reading ComprehensionQuestion Answering	CodeCode Available	0
Sequential Attention: A Context-Aware Alignment Function for Machine Reading	May 5, 2017	Reading Comprehension	—Unverified	0
Machine Comprehension by Text-to-Text Neural Question Generation	May 4, 2017	Question AnsweringQuestion Generation	CodeCode Available	0
Learning to Ask: Neural Question Generation for Reading Comprehension	Apr 29, 2017	Question GenerationQuestion-Generation	CodeCode Available	1
OMNIRank: Risk Quantification for P2P Platforms with Deep Learning	Apr 27, 2017	Deep LearningReading Comprehension	—Unverified	0
Ruminating Reader: Reasoning with Gated Multi-Hop Attention	Apr 24, 2017	Question AnsweringReading Comprehension	—Unverified	0
SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine	Apr 18, 2017	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	0
RACE: Large-scale ReAding Comprehension Dataset From Examinations	Apr 15, 2017	Reading Comprehension	CodeCode Available	0
Automatic Classification of the Complexity of Nonfiction Texts in Portuguese for Early School Years	Apr 10, 2017	BlockingGeneral Classification	—Unverified	0
Readers vs. Writers vs. Texts: Coping with Different Perspectives of Text Understanding in Emotion Annotation	Apr 1, 2017	Reading Comprehension	CodeCode Available	1
LSDSem 2017 Shared Task: The Story Cloze Test	Apr 1, 2017	Cloze TestReading Comprehension	—Unverified	0

Show:10 25 50

← PrevPage 62 of 71Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
4	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified