Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1701–1750 of 1760 papers

Title	Date	Tasks	Status
Design and Development of an Online Computational Framework to Facilitate Language Comprehension Research on Indian Languages	May 1, 2014	Reading ComprehensionSentence	—Unverified
Multiple Choice Question Corpus Analysis for Distractor Characterization	May 1, 2014	Multiple-choiceReading Comprehension	—Unverified
Modeling Language Proficiency Using Implicit Feedback	May 1, 2014	Reading ComprehensionText Simplification	—Unverified
A hierarchical taxonomy for classifying hardness of inference tasks	May 1, 2014	coreference-resolutionCoreference Resolution	—Unverified
An evaluation of syntactic simplification rules for people with autism	Apr 1, 2014	Reading Comprehension	—Unverified
Keyword Highlighting Improves Comprehension for People with Dyslexia	Apr 1, 2014	Reading Comprehension	—Unverified
Machine Reading Tea Leaves: Automatically Evaluating Topic Coherence and Topic Model Quality	Apr 1, 2014	Machine TranslationReading Comprehension	CodeCode Available
Entity Linking meets Word Sense Disambiguation: a Unified Approach	Jan 1, 2014	Entity LinkingLEMMA	—Unverified
PADS Restoration and Its Importance in Reading Comprehension and Meaning Representation	Nov 1, 2013	Boundary DetectionReading Comprehension	—Unverified
iPad Reading: An Innovative Approach to New Literacies	Nov 1, 2013	Reading Comprehension	—Unverified
中英文的文字蘊涵與閱讀測驗的初步探索 (An Exploration of Textual Entailment and Reading Comprehension for Chinese and English) [In Chinese]	Oct 1, 2013	Natural Language InferenceReading Comprehension	—Unverified
Long-Distance Time-Event Relation Extraction	Oct 1, 2013	Event Relation ExtractionReading Comprehension	—Unverified
University Entrance Examinations as a Benchmark Resource for NLP-based Problem Solving	Oct 1, 2013	Machine TranslationNatural Language Inference	—Unverified
MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text	Oct 1, 2013	Natural Language InferenceReading Comprehension	—Unverified
Exploiting Multiple Sources for Open-Domain Hypernym Discovery	Oct 1, 2013	Hypernym DiscoveryInformation Retrieval	—Unverified
An NLP-based Reading Tool for Aiding Non-native English Readers	Sep 1, 2013	Morphological AnalysisReading Comprehension	—Unverified
A Tagging Approach to Identify Complex Constituents for Text Simplification	Sep 1, 2013	Machine TranslationReading Comprehension	—Unverified
Text Modification for Bulgarian Sign Language Users	Aug 1, 2013	Language AcquisitionReading Comprehension	—Unverified
The C-Score -- Proposing a Reading Comprehension Metrics as a Common Evaluation Measure for Text Simplification	Aug 1, 2013	Machine TranslationReading Comprehension	—Unverified
Automatically Predicting Sentence Translation Difficulty	Aug 1, 2013	Machine TranslationReading Comprehension	—Unverified
Entity Linking for Tweets	Aug 1, 2013	Entity LinkingEntity Resolution	—Unverified
Automated Pyramid Scoring of Summaries using Distributional Semantics	Aug 1, 2013	Reading Comprehension	—Unverified
Question Analysis for Polish Question Answering	Aug 1, 2013	Question AnsweringReading Comprehension	—Unverified
Assessing Chinese Readability using Term Frequency and Lexical Chain	Jun 1, 2013	Reading ComprehensionSemantic Textual Similarity	—Unverified
A Two-Stage Approach for Generating Unbiased Estimates of Text Complexity	Jun 1, 2013	Reading ComprehensionVocal Bursts Valence Prediction	—Unverified
Open Book: a tool for helping ASD users' semantic comprehension	Jun 1, 2013	Reading Comprehension	—Unverified
Automated Scoring of a Summary-Writing Task Designed to Measure Reading Comprehension	Jun 1, 2013	Reading Comprehension	—Unverified
CoMeT: Integrating different levels of linguistic modeling for meaning assessment	Jun 1, 2013	Natural Language InferenceReading Comprehension	—Unverified
Using the text to evaluate short answers for reading comprehension exercises	Jun 1, 2013	Natural Language InferenceReading Comprehension	—Unverified
Discriminative Joint Modeling of Lexical Variation and Acoustic Confusion for Automated Narrative Retelling Assessment	Jun 1, 2013	Machine TranslationReading Comprehension	—Unverified
Atypical Prosodic Structure as an Indicator of Reading Level and Text Difficulty	Jun 1, 2013	Reading ComprehensionSpeech Recognition	—Unverified
Using Finite State Transducers for Making Efficient Reading Comprehension Dictionaries	May 1, 2013	Reading Comprehension	—Unverified
Data-Driven Metaphor Recognition and Explanation	Jan 1, 2013	Reading Comprehension	—Unverified
Squibs: What Is a Paraphrase?	Jan 1, 2013	Machine TranslationNatural Language Inference	—Unverified
A New Semantic Lexicon and Similarity Measure in Bangla	Dec 1, 2012	Information RetrievalMachine Translation	—Unverified
Set Expansion using Sibling Relations between Semantic Categories	Nov 1, 2012	Named Entity Recognition (NER)Reading Comprehension	—Unverified
No Noun Phrase Left Behind: Detecting and Typing Unlinkable Entities	Jul 1, 2012	Entity LinkingNamed Entity Recognition (NER)	—Unverified
Joint Inference for Event Timeline Construction	Jul 1, 2012	Reading Comprehension	—Unverified
Learning-based Multi-Sieve Co-reference Resolution with Knowledge	Jul 1, 2012	Coreference ResolutionReading Comprehension	—Unverified
SemEval-2012 Task 6: A Pilot on Semantic Textual Similarity	Jul 1, 2012	Coreference ResolutionMachine Translation	—Unverified
Computational Approaches to Sentence Completion	Jul 1, 2012	Language ModellingQuestion Answering	—Unverified
Learning to ``Read Between the Lines'' using Bayesian Logic Programs	Jul 1, 2012	Common Sense ReasoningReading Comprehension	—Unverified
Lecture et prosodie chez l'enfant dyslexique, le cas des pauses (Reading and prosody in dyslexic children, pause patterns) [in French]	Jun 1, 2012	Reading Comprehension	—Unverified
Evaluating the Quality of a Knowledge Base Populated from Text	Jun 1, 2012	Entity LinkingKnowledge Base Population	—Unverified
Generating Diagnostic Multiple Choice Comprehension Cloze Questions	Jun 1, 2012	DiagnosticMultiple-choice	—Unverified
Graphical Schemes May Improve Readability but Not Understandability for People with Dyslexia	Jun 1, 2012	Reading Comprehension	—Unverified
Developing ARET: An NLP-based Educational Tool Set for Arabic Reading Enhancement	Jun 1, 2012	Reading Comprehension	—Unverified
Evaluating the Meaning of Answers to Reading Comprehension Questions: A Semantics-Based Approach	Jun 1, 2012	Reading Comprehension	—Unverified
Sense-Specific Lexical Information for Reading Assistance	Jun 1, 2012	Reading ComprehensionWord Sense Disambiguation	—Unverified
Short Answer Assessment: Establishing Links Between Research Strands	Jun 1, 2012	Reading Comprehension	—Unverified

Show:10 25 50

← PrevPage 35 of 36Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
4	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified