Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 1760 papers

Title	Date	Tasks	Status	Score
Exploiting Word Semantics to Enrich Character Representations of Chinese Pre-trained Models	Jul 13, 2022	Machine Reading ComprehensionNatural Language Inference	CodeCode Available	5
Learning Semantic Sentence Embeddings using Sequential Pair-wise Discriminator	Aug 1, 2018	DecoderMachine Reading Comprehension	CodeCode Available	5
Contextualized Word Representations for Reading Comprehension	Dec 10, 2017	Language ModelingLanguage Modelling	CodeCode Available	5
Learning to Describe Phrases with Local and Global Contexts	Nov 1, 2018	DecoderReading Comprehension	CodeCode Available	5
Less Is More: Domain Adaptation with Lottery Ticket for Reading Comprehension	Nov 1, 2021	Domain AdaptationReading Comprehension	CodeCode Available	5
Explore, Propose, and Assemble: An Interpretable Model for Multi-Hop Reading Comprehension	Jun 12, 2019	Multi-Hop Reading ComprehensionReading Comprehension	CodeCode Available	5
Lite Unified Modeling for Discriminative Reading Comprehension	Mar 26, 2022	DecoderMachine Reading Comprehension	CodeCode Available	5
Are you tough enough? Framework for Robustness Validation of Machine Comprehension Systems	Oct 22, 2018	Question AnsweringReading Comprehension	CodeCode Available	5
Exploiting Explicit Paths for Multi-hop Reading Comprehension	Nov 2, 2018	Implicit RelationsKnowledge Graphs	CodeCode Available	5
Attention-over-Attention Neural Networks for Reading Comprehension	Jul 15, 2016	Question AnsweringReading Comprehension	CodeCode Available	5
Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions	May 23, 2023	Data AugmentationLanguage Modeling	CodeCode Available	5
Chaining Event Spans for Temporal Relation Grounding	Jun 17, 2025	Reading ComprehensionRelation	CodeCode Available	5
Are you tough enough? Framework for Robustness Validation of Machine Comprehension Systems	Dec 5, 2018	Question AnsweringReading Comprehension	CodeCode Available	5
EviDR: Evidence-Emphasized Discrete Reasoning for Reasoning Machine Reading Comprehension	Aug 18, 2021	AttributeMachine Reading Comprehension	CodeCode Available	5
Treatment effects without multicollinearity? Temporal order and the Gram-Schmidt process in causal inference	Feb 27, 2024	Causal InferenceReading Comprehension	CodeCode Available	5
Evidence Sentence Extraction for Machine Reading Comprehension	Feb 23, 2019	Machine Reading ComprehensionMultiple-choice	CodeCode Available	5
Machine Comprehension by Text-to-Text Neural Question Generation	May 4, 2017	Question AnsweringQuestion Generation	CodeCode Available	5
Explaining Interactions Between Text Spans	Oct 20, 2023	Community DetectionDecision Making	CodeCode Available	5
Exploring Recommendation Capabilities of GPT-4V(ision): A Preliminary Case Study	Nov 7, 2023	General KnowledgeReading Comprehension	CodeCode Available	5
Machine Reading Tea Leaves: Automatically Evaluating Topic Coherence and Topic Model Quality	Apr 1, 2014	Machine TranslationReading Comprehension	CodeCode Available	5
CoQA: A Conversational Question Answering Challenge	Aug 21, 2018	8kConversational Question Answering	CodeCode Available	5
Coreference-aware Double-channel Attention Network for Multi-party Dialogue Reading Comprehension	May 15, 2023	Reading Comprehension	CodeCode Available	5
Question Answering as an Automatic Evaluation Metric for News Article Summarization	Jun 2, 2019	Headline GenerationQuestion Answering	CodeCode Available	5
Cascading Biases: Investigating the Effect of Heuristic Annotation Strategies on Data and Models	Oct 24, 2022	Multiple-choiceReading Comprehension	CodeCode Available	5
Evaluating Large Language Models on Controlled Generation Tasks	Oct 23, 2023	Question GenerationQuestion-Generation	CodeCode Available	5
Capturing Greater Context for Question Generation	Oct 22, 2019	Question AnsweringQuestion Generation	CodeCode Available	5
Can We Guide a Multi-Hop Reasoning Language Model to Incrementally Learn at Each Single-Hop?	Oct 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
A Reading Comprehension Corpus for Machine Translation Evaluation	May 1, 2016	Machine TranslationReading Comprehension	CodeCode Available	5
Evaluating LLMs for Targeted Concept Simplification for Domain-Specific Texts	Oct 28, 2024	ArticlesReading Comprehension	CodeCode Available	5
Can Question Generation Debias Question Answering Models? A Case Study on Question-Context Lexical Overlap	Sep 23, 2021	Data AugmentationQuestion Answering	CodeCode Available	5
Evaluating Commonsense in Pre-trained Language Models	Nov 27, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
AmazonQA: A Review-Based Question Answering Task	Aug 12, 2019	Answer GenerationInformation Retrieval	CodeCode Available	5
Ethical-Advice Taker: Do Language Models Understand Natural Language Interventions?	Jun 2, 2021	EthicsFew-Shot Learning	CodeCode Available	5
Cross-Lingual Machine Reading Comprehension	Sep 1, 2019	Machine Reading ComprehensionReading Comprehension	CodeCode Available	5
A Question-Focused Multi-Factor Attention Network for Question Answering	Jan 25, 2018	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	5
Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension	Feb 26, 2023	Cross-Lingual Question AnsweringMachine Reading Comprehension	CodeCode Available	5
Adaptive loose optimization for robust question answering	May 6, 2023	Extractive Question-AnsweringMachine Reading Comprehension	CodeCode Available	5
MRCBert: A Machine Reading ComprehensionApproach for Unsupervised Summarization	May 1, 2021	Decision MakingMachine Reading Comprehension	CodeCode Available	5
From Multiple-Choice to Extractive QA: A Case Study for English and Arabic	Apr 26, 2024	BelebeleExtractive Question-Answering	CodeCode Available	5
Estimating Linguistic Complexity for Science Texts	Jun 1, 2018	Feature EngineeringReading Comprehension	CodeCode Available	5
Episodic Memory Reader: Learning What to Remember for Question Answering from Streaming Data	Mar 14, 2019	Question AnsweringReading Comprehension	CodeCode Available	5
Automatically generating question-answer pairs for assessing basic reading comprehension in Swedish	Nov 28, 2022	Question GenerationQuestion-Generation	CodeCode Available	5
AllenNLP Interpret: A Framework for Explaining Predictions of NLP Models	Sep 19, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Multilingual Controllable Transformer-Based Lexical Simplification	Jul 5, 2023	Lexical SimplificationReading Comprehension	CodeCode Available	5
EQuANt (Enhanced Question Answer Network)	Jun 24, 2019	Machine Reading ComprehensionMulti-Task Learning	CodeCode Available	5
Multi-Perspective Context Matching for Machine Comprehension	Dec 13, 2016	Question AnsweringReading Comprehension	CodeCode Available	5
Entity Tracking Improves Cloze-style Reading Comprehension	Oct 5, 2018	LAMBADAReading Comprehension	CodeCode Available	5
A quantitative study of NLP approaches to question difficulty estimation	May 17, 2023	MathMultiple-choice	CodeCode Available	5
ET5: A Novel End-to-end Framework for Conversational Machine Reading Comprehension	Sep 23, 2022	Decision MakingMachine Reading Comprehension	CodeCode Available	5
A Puzzle-Based Dataset for Natural Language Inference	Dec 10, 2021	Natural Language InferenceNatural Language Understanding	CodeCode Available	5

Show:10 25 50

← PrevPage 9 of 36Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
4	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified