Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 1760 papers

Title	Date	Tasks	Status
未登錄詞之向量表示法模型於中文機器閱讀理解之應用 (An OOV Word Embedding Framework for Chinese Machine Reading Comprehension)	Dec 1, 2018	Machine Reading ComprehensionReading Comprehension	—Unverified
Weighted Global Normalization for Multiple Choice Reading Comprehension over Long Documents	Dec 5, 2018	Answer SelectionMultiple-choice	—Unverified
What does BERT Learn from Arabic Machine Reading Comprehension Datasets?	Apr 1, 2021	Language ModelingLanguage Modelling	—Unverified
What does BERT Learn from Multiple-Choice Reading Comprehension Datasets?	Oct 28, 2019	Multiple-choiceReading Comprehension	—Unverified
What Happened? Leveraging VerbNet to Predict the Effects of Actions in Procedural Text	Apr 15, 2018	Reading Comprehension	—Unverified
What Has Been Lost with Synthetic Evaluation?	May 28, 2025	NegationReading Comprehension	—Unverified
What If Sentence-hood is Hard to Define: A Case Study in Chinese Reading Comprehension	Nov 1, 2021	Chinese Reading ComprehensionMachine Reading Comprehension	—Unverified
What is Missing in Existing Multi-hop Datasets? Toward Deeper Multi-hop Reasoning Task	Jun 16, 2021	Entity LinkingMachine Reading Comprehension	—Unverified
What Makes a Concept Complex? Measuring Conceptual Complexity as a Precursor for Text Simplification	Jul 1, 2021	Binary ClassificationLexical Simplification	—Unverified
What Makes it Difficult to Understand a Scientific Literature?	Dec 4, 2015	Reading Comprehension	—Unverified
What Makes Machine Reading Comprehension Questions Difficult? Investigating Variation in Passage Sources and Question Types	Nov 16, 2021	Logical ReasoningMachine Reading Comprehension	—Unverified
What Makes Reading Comprehension Questions Difficult? Investigating Variation in Passage Sources and Question Types	Sep 17, 2021	Logical ReasoningMultiple-choice	—Unverified
What's the Meaning of Superhuman Performance in Today's NLU?	May 15, 2023	PositionReading Comprehension	—Unverified
When Did that Happen? --- Linking Events and Relations to Timestamps	Apr 1, 2012	Feature EngineeringReading Comprehension	—Unverified
When Do Decompositions Help for Machine Reading?	Dec 20, 2022	Reading ComprehensionRetrieval	—Unverified
Who did What: A Large-Scale Person-Centered Cloze Dataset	Aug 19, 2016	ArticlesMultiple-choice	—Unverified
Why can't memory networks read effectively?	Oct 16, 2019	Machine Reading ComprehensionQuestion Answering	—Unverified
Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs	Dec 19, 2024	Arithmetic ReasoningCode Generation	—Unverified
WikiPossessions: Possession Timeline Generation as an Evaluation Benchmark for Machine Reading Comprehension of Long Texts	May 1, 2020	ArticlesMachine Reading Comprehension	—Unverified
Work Smart - Reducing Effort in Short-Answer Grading	Nov 1, 2018	Active LearningReading Comprehension	—Unverified
World Knowledge for Reading Comprehension: Rare Entity Prediction with Hierarchical LSTMs Using External Descriptions	Sep 1, 2017	DiversityLanguage Modeling	—Unverified
XCMRC: Evaluating Cross-lingual Machine Reading Comprehension	Aug 15, 2019	Machine Reading ComprehensionReading Comprehension	—Unverified
XL^2Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies	Apr 8, 2024	Long-Context UnderstandingReading Comprehension	—Unverified
XLMRQA: Open-Domain Question Answering on Vietnamese Wikipedia-based Textual Knowledge Source	Apr 14, 2022	Information RetrievalMachine Reading Comprehension	—Unverified
XQA-DST: Multi-Domain and Multi-Lingual Dialogue State Tracking	Jan 16, 2022	Cross-Lingual TransferDialogue State Tracking	—Unverified
Yimmon at SemEval-2019 Task 9: Suggestion Mining with Hybrid Augmented Approaches	Jun 1, 2019	Machine Reading ComprehensionReading Comprehension	—Unverified
Y-NQ: English-Yorùbá Evaluation dataset for Open-Book Reading Comprehension and Text Generation	Dec 11, 2024	Reading ComprehensionText Generation	—Unverified
YNU\_AI1799 at SemEval-2018 Task 11: Machine Comprehension using Commonsense Knowledge of Different model ensemble	Jun 1, 2018	Language ModelingLanguage Modelling	—Unverified
YNU\_Deep at SemEval-2018 Task 11: An Ensemble of Attention-based BiLSTM Models for Machine Comprehension	Jun 1, 2018	Machine TranslationReading Comprehension	—Unverified
YNU Deep at SemEval-2018 Task 12: A BiLSTM Model with Neural Attention for Argument Reasoning Comprehension	Jun 1, 2018	Constituency ParsingLanguage Modeling	—Unverified
YNU-HPCC at Semeval-2018 Task 11: Using an Attention-based CNN-LSTM for Machine Comprehension using Commonsense Knowledge	Jun 1, 2018	Question AnsweringReading Comprehension	—Unverified
``You are grounded!'': Latent Name Artifacts in Pre-trained Language Models	Nov 1, 2020	Reading Comprehension	—Unverified
Zero-Shot Estimation of Base Models' Weights in Ensemble of Machine Reading Comprehension Systems for Robust Generalization	Jun 30, 2021	Domain GeneralizationMachine Reading Comprehension	—Unverified
Zero-shot Event Causality Identification with Question Answering	Sep 1, 2022	ArticlesEvent Causality Identification	—Unverified
Zero-shot Reading Comprehension by Cross-lingual Transfer Learning with Multi-lingual Language Representation Model	Sep 15, 2019	Cross-Lingual TransferReading Comprehension	—Unverified
ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language Models	Dec 21, 2022	Extractive Question-AnsweringLanguage Modeling	—Unverified
Team SWEEPer: Joint Sentence Extraction and Fact Checking with Pointer Networks	Nov 1, 2018	Fact CheckingInformation Retrieval	—Unverified
GeoSQA: A Benchmark for Scenario-based Question Answering in the Geography Domain at High School Level	Aug 20, 2019	General KnowledgeMultiple-choice	—Unverified
SAT3D: Image-driven Semantic Attribute Transfer in 3D	Aug 3, 2024	AttributeReading Comprehension	—Unverified
Recent Advances in Multi-Choice Machine Reading Comprehension: A Survey on Methods and Datasets	Aug 4, 2024	Few-Shot LearningMachine Reading Comprehension	—Unverified
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models	Aug 5, 2024	ArticlesDomain Adaptation	—Unverified
DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction	Sep 7, 2024	Document-level Relation ExtractionReading Comprehension	—Unverified
2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval	Jun 10, 2024	Boundary DetectionMachine Reading Comprehension	—Unverified
2M-BELEBELE: Highly Multilingual Speech and American Sign Language Comprehension Dataset	Dec 11, 2024	BelebeleReading Comprehension	—Unverified
A3Net: Adversarial-and-Attention Network for Machine Reading Comprehension	Sep 3, 2018	DiversityMachine Reading Comprehension	—Unverified
App-Aware Response Synthesis for User Reviews	Jul 31, 2020	Machine Reading ComprehensionReading Comprehension	—Unverified
A BERT based Sentiment Analysis and Key Entity Detection Approach for Online Financial Texts	Jan 14, 2020	Ensemble LearningMachine Reading Comprehension	—Unverified
Accurate Supervised and Semi-Supervised Machine Reading for Long Documents	Sep 1, 2017	DecoderQuestion Answering	—Unverified
未登錄詞之向量表示法模型於中文機器閱讀理解之應用 (An OOV Word Embedding Framework for Chinese Machine Reading Comprehension) [In Chinese]	Oct 1, 2018	Machine Reading ComprehensionReading Comprehension	—Unverified
AceMap: Knowledge Discovery through Academic Graph	Mar 5, 2024	Knowledge GraphsReading Comprehension	—Unverified

Show:10 25 50

← PrevPage 23 of 36Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
4	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified