Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 1760 papers

Title	Date	Tasks	Status	Hype
SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval	Dec 19, 2024	Knowledge GraphsRAG	—Unverified	0
Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs	Dec 19, 2024	Arithmetic ReasoningCode Generation	—Unverified	0
Biased or Flawed? Mitigating Stereotypes in Generative Language Models by Addressing Task-Specific Flaws	Dec 16, 2024	Reading Comprehension	CodeCode Available	0
Advancements and Challenges in Bangla Question Answering Models: A Comprehensive Review	Dec 16, 2024	ArticlesQuestion Answering	—Unverified	0
Y-NQ: English-Yorùbá Evaluation dataset for Open-Book Reading Comprehension and Text Generation	Dec 11, 2024	Reading ComprehensionText Generation	—Unverified	0
2M-BELEBELE: Highly Multilingual Speech and American Sign Language Comprehension Dataset	Dec 11, 2024	BelebeleReading Comprehension	—Unverified	0
Asking Again and Again: Exploring LLM Robustness to Repeated Questions	Dec 10, 2024	Reading ComprehensionSensitivity	CodeCode Available	0
Mimir: Improving Video Diffusion Models for Precise Text Understanding	Dec 4, 2024	DecoderReading Comprehension	—Unverified	0
CPRM: A LLM-based Continual Pre-training Framework for Relevance Modeling in Commercial Search	Dec 2, 2024	In-Context LearningReading Comprehension	—Unverified	0
SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers	Nov 8, 2024	ArticlesQuestion Answering	CodeCode Available	0
Evaluating Large Language Model Capability in Vietnamese Fact-Checking Data Generation	Nov 8, 2024	Fact CheckingLanguage Modeling	—Unverified	0
A study of Vietnamese readability assessing through semantic and statistical features	Nov 7, 2024	Reading Comprehension	—Unverified	0
Diagnosing Medical Datasets with Training Dynamics	Nov 3, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available	0
NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom	Nov 2, 2024	Cloze TestReading Comprehension	—Unverified	0
RoBIn: A Transformer-Based Model For Risk Of Bias Inference With Machine Reading Comprehension	Oct 28, 2024	Binary ClassificationMachine Reading Comprehension	CodeCode Available	0
TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text	Oct 28, 2024	Reading Comprehension	—Unverified	0
LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation	Oct 28, 2024	Keyword ExtractionRAG	CodeCode Available	0
Visualizing attention zones in machine reading comprehension models	Oct 28, 2024	Language ModelingLanguage Modelling	—Unverified	0
Evaluating LLMs for Targeted Concept Simplification for Domain-Specific Texts	Oct 28, 2024	ArticlesReading Comprehension	CodeCode Available	0
Attacks against Abstractive Text Summarization Models through Lead Bias and Influence Functions	Oct 26, 2024	Abstractive Text SummarizationAdversarial Robustness	—Unverified	0
Developing a Tutoring Dialog Dataset to Optimize LLMs for Educational Use	Oct 25, 2024	Reading Comprehension	—Unverified	0
BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning	Oct 24, 2024	Instruction FollowingNatural Language Understanding	—Unverified	0
Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models	Oct 19, 2024	HallucinationLanguage Modeling	—Unverified	0
Comprehending Knowledge Graphs with Large Language Models for Recommender Systems	Oct 16, 2024	Knowledge-Aware RecommendationKnowledge Graphs	—Unverified	0
Enhanced Electronic Health Records Text Summarization Using Large Language Models	Oct 12, 2024	Question AnsweringReading Comprehension	—Unverified	0
On the token distance modeling ability of higher RoPE attention dimension	Oct 11, 2024	PositionReading Comprehension	—Unverified	0
Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference	Oct 10, 2024	Machine Reading ComprehensionQuestion Answering	—Unverified	0
Fine-Grained Prediction of Reading Comprehension from Eye Movements	Oct 6, 2024	PredictionReading Comprehension	CodeCode Available	0
Punctuation Prediction for Polish Texts using Transformers	Oct 6, 2024	PredictionReading Comprehension	—Unverified	0
Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source Citations	Oct 5, 2024	Language ModelingLanguage Modelling	—Unverified	0
On the Inductive Bias of Stacking Towards Improving Reasoning	Sep 27, 2024	Inductive BiasMath	—Unverified	0
Rehearsing Answers to Probable Questions with Perspective-Taking	Sep 27, 2024	Common Sense ReasoningKnowledge Graphs	—Unverified	0
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy	Sep 25, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI	Sep 24, 2024	ARCData Augmentation	CodeCode Available	0
Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension	Sep 22, 2024	Contrastive Learningcounterfactual	CodeCode Available	0
Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models	Sep 9, 2024	Contrastive LearningData Augmentation	—Unverified	0
Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling	Sep 9, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Evaluating Large Language Models with Tests of Spanish as a Foreign Language: Pass or Fail?	Sep 8, 2024	Natural Language UnderstandingReading Comprehension	—Unverified	0
Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers?	Sep 8, 2024	Language ModellingReading Comprehension	CodeCode Available	0
DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction	Sep 7, 2024	Document-level Relation ExtractionReading Comprehension	—Unverified	0
Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers	Sep 5, 2024	Adversarial DefenseLanguage Modelling	—Unverified	0
DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning	Sep 2, 2024	Code CompletionCombinatorial Optimization	CodeCode Available	1
FabricQA-Extractor: A Question Answering System to Extract Information from Documents using Natural Language Questions	Aug 17, 2024	ManagementQuestion Answering	—Unverified	0
Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension	Aug 9, 2024	DiversityLanguage Modeling	—Unverified	0
Enhancing Robustness of Retrieval-Augmented Language Models with In-Context Learning	Aug 8, 2024	In-Context LearningMachine Reading Comprehension	—Unverified	0
AutoFAIR : Automatic Data FAIRification via Machine Reading	Aug 7, 2024	FairnessReading Comprehension	—Unverified	0
Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction	Aug 5, 2024	Information RetrievalKnowledge Base Question Answering	CodeCode Available	0
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models	Aug 5, 2024	ArticlesDomain Adaptation	—Unverified	0
Recent Advances in Multi-Choice Machine Reading Comprehension: A Survey on Methods and Datasets	Aug 4, 2024	Few-Shot LearningMachine Reading Comprehension	—Unverified	0
SAT3D: Image-driven Semantic Attribute Transfer in 3D	Aug 3, 2024	AttributeReading Comprehension	—Unverified	0

Show:10 25 50

← PrevPage 2 of 36Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
4	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified