Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1760 papers

Title	Date	Tasks	Status	Hype
In-context Pretraining: Language Modeling Beyond Document Boundaries	Oct 16, 2023	In-Context LearningLanguage Modeling	CodeCode Available	1
TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation	Oct 15, 2023	Dataset CondensationReading Comprehension	—Unverified	0
The Consensus Game: Language Model Generation via Equilibrium Search	Oct 13, 2023	Language ModelingLanguage Modelling	—Unverified	0
Optimizing Odia Braille Literacy: The Influence of Speed on Error Reduction and Enhanced Comprehension	Oct 12, 2023	Reading Comprehension	—Unverified	0
InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining	Oct 11, 2023	4kDecoder	CodeCode Available	0
Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models	Oct 8, 2023	MMLUNatural Language Understanding	CodeCode Available	1
LC-Score: Reference-less estimation of Text Comprehension Difficulty	Oct 4, 2023	Reading ComprehensionText Simplification	—Unverified	0
Hierarchical Evaluation Framework: Best Practices for Human Evaluation	Oct 3, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified	0
MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens	Oct 3, 2023	Image Generationmultimodal generation	CodeCode Available	2
Decoding In-Context Learning: Neuroscience-inspired Analysis of Representations in Large Language Models	Sep 30, 2023	In-Context LearningReading Comprehension	—Unverified	0
Gaze-Driven Sentence Simplification for Language Learners: Enhancing Comprehension and Readability	Sep 30, 2023	Reading ComprehensionSentence	—Unverified	0
Question answering using deep learning in low resource Indian language Marathi	Sep 27, 2023	Question AnsweringReading Comprehension	—Unverified	0
Integrating LLM, EEG, and Eye-Tracking Biomarker Analysis for Word-Level Neural State Classification in Semantic Inference Reading Comprehension	Sep 27, 2023	EEGFeature Engineering	—Unverified	0
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition	Sep 26, 2023	ArticlesImage Comprehension	CodeCode Available	0
Is it Possible to Modify Text to a Target Readability Level? An Initial Investigation Using Zero-Shot Large Language Models	Sep 22, 2023	Language ModellingReading Comprehension	—Unverified	0
ChatPRCS: A Personalized Support System for English Reading Comprehension based on ChatGPT	Sep 22, 2023	ArticlesQuestion Generation	—Unverified	0
Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges	Sep 21, 2023	Reading Comprehension	—Unverified	0
KOSMOS-2.5: A Multimodal Literate Model	Sep 20, 2023	document understandingmodel	—Unverified	0
Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach	Sep 20, 2023	Machine Reading ComprehensionMulti-Task Learning	CodeCode Available	0
ChatGPT-4 as a Tool for Reviewing Academic Books in Spanish	Sep 20, 2023	Language ModellingReading Comprehension	—Unverified	0
Benchmarks for Pirá 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change	Sep 19, 2023	Generative Question AnsweringInformation Retrieval	—Unverified	0
Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation	Sep 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Multi-turn Dialogue Comprehension from a Topic-aware Perspective	Sep 18, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified	0
Adapting Large Language Models to Domains via Reading Comprehension	Sep 18, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning	Sep 16, 2023	Date UnderstandingGSM8K	CodeCode Available	0
HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models	Sep 6, 2023	General KnowledgeLogical Reasoning	CodeCode Available	1
Generative Data Augmentation using LLMs improves Distributional Robustness in Question Answering	Sep 3, 2023	Data AugmentationDomain Adaptation	CodeCode Available	3
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants	Aug 31, 2023	BelebeleCross-Lingual Transfer	CodeCode Available	2
Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers	Aug 25, 2023	Reading ComprehensionText Summarization	CodeCode Available	0
Open Gaze: Open Source eye tracker for smartphone devices using Deep Learning	Aug 25, 2023	Reading Comprehension	—Unverified	0
NaijaRC: A Multi-choice Reading Comprehension Dataset for Nigerian Languages	Aug 18, 2023	BelebeleCross-Lingual Transfer	CodeCode Available	0
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning	Aug 17, 2023	DecoderReading Comprehension	CodeCode Available	1
Demonstration-based learning for few-shot biomedical named entity recognition under machine reading comprehension	Aug 12, 2023	Few-Shot LearningMachine Reading Comprehension	CodeCode Available	0
KETM:A Knowledge-Enhanced Text Matching method	Aug 11, 2023	Common Sense ReasoningQuestion Answering	CodeCode Available	1
TextPainter: Multimodal Text Image Generation with Visual-harmony and Text-comprehension for Poster Design	Aug 9, 2023	Image GenerationLanguage Modeling	—Unverified	0
Single-Sentence Reader: A Novel Approach for Addressing Answer Position Bias	Aug 8, 2023	Machine Reading ComprehensionPosition	CodeCode Available	0
Top K Relevant Passage Retrieval for Biomedical Question Answering	Aug 8, 2023	ArticlesPassage Retrieval	CodeCode Available	0
ReCoMIF: Reading comprehension based multi-source information fusion network for Chinese spoken language understanding	Aug 1, 2023	Intent DetectionMultiple-choice	CodeCode Available	0
Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model	Jul 19, 2023	Common Sense ReasoningGraph Attention	—Unverified	0
Teach model to answer questions after comprehending the document	Jul 18, 2023	Knowledge DistillationMachine Reading Comprehension	—Unverified	0
ZeQR: Zero-shot Query Reformulation for Conversational Search	Jul 18, 2023	Conversational SearchInformation Retrieval	CodeCode Available	0
Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models	Jul 11, 2023	Common Sense ReasoningDecision Making	—Unverified	0
KoRC: Knowledge oriented Reading Comprehension Benchmark for Deep Text Understanding	Jul 6, 2023	Reading Comprehension	CodeCode Available	0
Multilingual Controllable Transformer-Based Lexical Simplification	Jul 5, 2023	Lexical SimplificationReading Comprehension	CodeCode Available	0
Analyzing Multiple-Choice Reading and Listening Comprehension Tests	Jul 3, 2023	Multiple-choiceReading Comprehension	—Unverified	0
Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models	Jul 3, 2023	FormInstruction Following	CodeCode Available	1
IDOL: Indicator-oriented Logic Pre-training for Logical Reasoning	Jun 27, 2023	Logical ReasoningMachine Reading Comprehension	CodeCode Available	1
Sentence-level Event Detection without Triggers via Prompt Learning and Machine Reading Comprehension	Jun 25, 2023	Event DetectionMachine Reading Comprehension	CodeCode Available	1
SciMRC: Multi-perspective Scientific Machine Reading Comprehension	Jun 25, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified	0
Bidirectional End-to-End Learning of Retriever-Reader Paradigm for Entity Linking	Jun 21, 2023	Entity LinkingEntity Retrieval	CodeCode Available	0

Show:10 25 50

← PrevPage 6 of 36Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
4	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified