Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 1760 papers

Title	Date	Tasks	Status	Hype
In-context Pretraining: Language Modeling Beyond Document Boundaries	Oct 16, 2023	In-Context LearningLanguage Modeling	CodeCode Available	1
TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation	Oct 15, 2023	Dataset CondensationReading Comprehension	—Unverified	0
The Consensus Game: Language Model Generation via Equilibrium Search	Oct 13, 2023	Language ModelingLanguage Modelling	—Unverified	0
Optimizing Odia Braille Literacy: The Influence of Speed on Error Reduction and Enhanced Comprehension	Oct 12, 2023	Reading Comprehension	—Unverified	0
InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining	Oct 11, 2023	4kDecoder	—Unverified	0
Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models	Oct 8, 2023	MMLUNatural Language Understanding	CodeCode Available	1
LC-Score: Reference-less estimation of Text Comprehension Difficulty	Oct 4, 2023	Reading ComprehensionText Simplification	—Unverified	0
Hierarchical Evaluation Framework: Best Practices for Human Evaluation	Oct 3, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified	0
MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens	Oct 3, 2023	Image Generationmultimodal generation	CodeCode Available	2
Decoding In-Context Learning: Neuroscience-inspired Analysis of Representations in Large Language Models	Sep 30, 2023	In-Context LearningReading Comprehension	—Unverified	0
Gaze-Driven Sentence Simplification for Language Learners: Enhancing Comprehension and Readability	Sep 30, 2023	Reading ComprehensionSentence	—Unverified	0
Question answering using deep learning in low resource Indian language Marathi	Sep 27, 2023	Question AnsweringReading Comprehension	—Unverified	0
Integrating LLM, EEG, and Eye-Tracking Biomarker Analysis for Word-Level Neural State Classification in Semantic Inference Reading Comprehension	Sep 27, 2023	EEGFeature Engineering	—Unverified	0
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition	Sep 26, 2023	ArticlesImage Comprehension	CodeCode Available	0
ChatPRCS: A Personalized Support System for English Reading Comprehension based on ChatGPT	Sep 22, 2023	ArticlesQuestion Generation	—Unverified	0
Is it Possible to Modify Text to a Target Readability Level? An Initial Investigation Using Zero-Shot Large Language Models	Sep 22, 2023	Language ModellingReading Comprehension	—Unverified	0
Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges	Sep 21, 2023	Reading Comprehension	—Unverified	0
ChatGPT-4 as a Tool for Reviewing Academic Books in Spanish	Sep 20, 2023	Language ModellingReading Comprehension	—Unverified	0
Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach	Sep 20, 2023	Machine Reading ComprehensionMulti-Task Learning	CodeCode Available	0
KOSMOS-2.5: A Multimodal Literate Model	Sep 20, 2023	document understandingmodel	—Unverified	0
Benchmarks for Pirá 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change	Sep 19, 2023	Generative Question AnsweringInformation Retrieval	—Unverified	0
Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation	Sep 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Multi-turn Dialogue Comprehension from a Topic-aware Perspective	Sep 18, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified	0
Adapting Large Language Models to Domains via Reading Comprehension	Sep 18, 2023	Language ModelingLanguage Modelling	—Unverified	0
EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning	Sep 16, 2023	Date UnderstandingGSM8K	CodeCode Available	0

Show:10 25 50

← PrevPage 11 of 71Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
4	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified