Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1760 papers

Title	Date	Tasks	Status
Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension	Nov 12, 2023	Cross-Lingual TransferMachine Reading Comprehension	—Unverified
BizBench: A Quantitative Reasoning Benchmark for Business and Finance	Nov 11, 2023	Code GenerationProgram Synthesis	—Unverified
Assessing Distractors in Multiple-Choice Tests	Nov 8, 2023	DiversityMultiple-choice	—Unverified
Exploring Recommendation Capabilities of GPT-4V(ision): A Preliminary Case Study	Nov 7, 2023	General KnowledgeReading Comprehension	CodeCode Available
Multi-grained Evidence Inference for Multi-choice Reading Comprehension	Oct 27, 2023	Machine Reading ComprehensionMulti-Choice MRC	—Unverified
Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset	Oct 26, 2023	Decision MakingPrompt Engineering	—Unverified
Guiding LLM to Fool Itself: Automatically Manipulating Machine Reading Comprehension Shortcut Triggers	Oct 24, 2023	Machine Reading ComprehensionReading Comprehension	CodeCode Available
Evaluating Large Language Models on Controlled Generation Tasks	Oct 23, 2023	Question GenerationQuestion-Generation	CodeCode Available
Explicit Alignment and Many-to-many Entailment Based Reasoning for Conversational Machine Reading	Oct 20, 2023	Decision MakingQuestion Generation	—Unverified
Explaining Interactions Between Text Spans	Oct 20, 2023	Community DetectionDecision Making	CodeCode Available
Do Language Models Learn about Legal Entity Types during Pretraining?	Oct 19, 2023	DecoderEntity Typing	CodeCode Available
Instructive Dialogue Summarization with Query Aggregations	Oct 17, 2023	Machine Reading ComprehensionReading Comprehension	CodeCode Available
TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation	Oct 15, 2023	Dataset CondensationReading Comprehension	—Unverified
The Consensus Game: Language Model Generation via Equilibrium Search	Oct 13, 2023	Language ModelingLanguage Modelling	—Unverified
Optimizing Odia Braille Literacy: The Influence of Speed on Error Reduction and Enhanced Comprehension	Oct 12, 2023	Reading Comprehension	—Unverified
InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining	Oct 11, 2023	4kDecoder	—Unverified
LC-Score: Reference-less estimation of Text Comprehension Difficulty	Oct 4, 2023	Reading ComprehensionText Simplification	—Unverified
Hierarchical Evaluation Framework: Best Practices for Human Evaluation	Oct 3, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified
Decoding In-Context Learning: Neuroscience-inspired Analysis of Representations in Large Language Models	Sep 30, 2023	In-Context LearningReading Comprehension	—Unverified
Gaze-Driven Sentence Simplification for Language Learners: Enhancing Comprehension and Readability	Sep 30, 2023	Reading ComprehensionSentence	—Unverified
Question answering using deep learning in low resource Indian language Marathi	Sep 27, 2023	Question AnsweringReading Comprehension	—Unverified
Integrating LLM, EEG, and Eye-Tracking Biomarker Analysis for Word-Level Neural State Classification in Semantic Inference Reading Comprehension	Sep 27, 2023	EEGFeature Engineering	—Unverified
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition	Sep 26, 2023	ArticlesImage Comprehension	CodeCode Available
Is it Possible to Modify Text to a Target Readability Level? An Initial Investigation Using Zero-Shot Large Language Models	Sep 22, 2023	Language ModellingReading Comprehension	—Unverified
ChatPRCS: A Personalized Support System for English Reading Comprehension based on ChatGPT	Sep 22, 2023	ArticlesQuestion Generation	—Unverified
Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges	Sep 21, 2023	Reading Comprehension	—Unverified
KOSMOS-2.5: A Multimodal Literate Model	Sep 20, 2023	document understandingmodel	—Unverified
Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach	Sep 20, 2023	Machine Reading ComprehensionMulti-Task Learning	CodeCode Available
ChatGPT-4 as a Tool for Reviewing Academic Books in Spanish	Sep 20, 2023	Language ModellingReading Comprehension	—Unverified
Benchmarks for Pirá 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change	Sep 19, 2023	Generative Question AnsweringInformation Retrieval	—Unverified
Adapting Large Language Models to Domains via Reading Comprehension	Sep 18, 2023	Language ModelingLanguage Modelling	—Unverified
Multi-turn Dialogue Comprehension from a Topic-aware Perspective	Sep 18, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified
EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning	Sep 16, 2023	Date UnderstandingGSM8K	CodeCode Available
Open Gaze: Open Source eye tracker for smartphone devices using Deep Learning	Aug 25, 2023	Reading Comprehension	—Unverified
Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers	Aug 25, 2023	Reading ComprehensionText Summarization	CodeCode Available
NaijaRC: A Multi-choice Reading Comprehension Dataset for Nigerian Languages	Aug 18, 2023	BelebeleCross-Lingual Transfer	CodeCode Available
Demonstration-based learning for few-shot biomedical named entity recognition under machine reading comprehension	Aug 12, 2023	Few-Shot LearningMachine Reading Comprehension	CodeCode Available
TextPainter: Multimodal Text Image Generation with Visual-harmony and Text-comprehension for Poster Design	Aug 9, 2023	Image GenerationLanguage Modeling	—Unverified
Top K Relevant Passage Retrieval for Biomedical Question Answering	Aug 8, 2023	ArticlesPassage Retrieval	CodeCode Available
Single-Sentence Reader: A Novel Approach for Addressing Answer Position Bias	Aug 8, 2023	Machine Reading ComprehensionPosition	CodeCode Available
ReCoMIF: Reading comprehension based multi-source information fusion network for Chinese spoken language understanding	Aug 1, 2023	Intent DetectionMultiple-choice	CodeCode Available
Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model	Jul 19, 2023	Common Sense ReasoningGraph Attention	—Unverified
Teach model to answer questions after comprehending the document	Jul 18, 2023	Knowledge DistillationMachine Reading Comprehension	—Unverified
ZeQR: Zero-shot Query Reformulation for Conversational Search	Jul 18, 2023	Conversational SearchInformation Retrieval	CodeCode Available
Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models	Jul 11, 2023	Common Sense ReasoningDecision Making	—Unverified
KoRC: Knowledge oriented Reading Comprehension Benchmark for Deep Text Understanding	Jul 6, 2023	Reading Comprehension	CodeCode Available
Multilingual Controllable Transformer-Based Lexical Simplification	Jul 5, 2023	Lexical SimplificationReading Comprehension	CodeCode Available
Analyzing Multiple-Choice Reading and Listening Comprehension Tests	Jul 3, 2023	Multiple-choiceReading Comprehension	—Unverified
SciMRC: Multi-perspective Scientific Machine Reading Comprehension	Jun 25, 2023	Machine Reading ComprehensionReading Comprehension	—Unverified
Bidirectional End-to-End Learning of Retriever-Reader Paradigm for Entity Linking	Jun 21, 2023	Entity LinkingEntity Retrieval	CodeCode Available

Show:10 25 50

← PrevPage 10 of 36Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
4	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified