Reading Comprehension

Most current question answering datasets frame the task as reading comprehension where the question is about a paragraph or document and the answer often is a span in the document.

Some specific tasks of reading comprehension include multi-modal machine reading comprehension and textual machine reading comprehension, among others. In the literature, machine reading comprehension can be divide into four categories: cloze style, multiple choice, span prediction, and free-form answer. Read more about each category here.

Benchmark datasets used for testing a model's reading comprehension abilities include MovieQA, ReCoRD, and RACE, among others.

The Machine Reading group at UCL also provides an overview of reading comprehension tasks.

Figure source: A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 1760 papers

Title	Date	Tasks	Status	Hype
Visuo-Linguistic Question Answering (VLQA) Challenge	May 1, 2020	Question AnsweringReading Comprehension	CodeCode Available	0
STARC: Structured Annotations for Reading Comprehension	Apr 30, 2020	Multiple-choiceReading Comprehension	CodeCode Available	1
Bilingual Text Extraction as Reading Comprehension	Apr 29, 2020	ArticlesReading Comprehension	—Unverified	0
Knowledgeable Dialogue Reading Comprehension on Key Turns	Apr 29, 2020	Answer SelectionLanguage Modeling	—Unverified	0
Enhancing Answer Boundary Detection for Multilingual Machine Reading Comprehension	Apr 29, 2020	Boundary DetectionMachine Reading Comprehension	—Unverified	0
Benchmarking Robustness of Machine Reading Comprehension Models	Apr 29, 2020	BenchmarkingMachine Reading Comprehension	CodeCode Available	1
The Curse of Performance Instability in Analysis Datasets: Consequences, Source, and Suggestions	Apr 28, 2020	Model SelectionNatural Language Inference	CodeCode Available	0
Semantics-Aware Inferential Network for Natural Language Understanding	Apr 28, 2020	Machine Reading ComprehensionNatural Language Inference	—Unverified	0
Facial Electromyography-based Adaptive Virtual Reality Gaming for Cognitive Training	Apr 27, 2020	Electromyography (EMG)Emotion Recognition	—Unverified	0
Contextualized Representations Using Textual Encyclopedic Knowledge	Apr 24, 2020	Language ModelingLanguage Modelling	—Unverified	0
DuReader_robust: A Chinese Dataset Towards Evaluating Robustness and Generalization of Machine Reading Comprehension in Real-World Applications	Apr 23, 2020	Machine Reading ComprehensionReading Comprehension	CodeCode Available	0
Answer Generation through Unified Memories over Multiple Passages	Apr 22, 2020	Answer GenerationDecoder	—Unverified	0
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering	Apr 21, 2020	Data AugmentationMachine Reading Comprehension	CodeCode Available	1
Exploring Probabilistic Soft Logic as a framework for integrating top-down and bottom-up processing of language in a task context	Apr 15, 2020	Reading Comprehension	—Unverified	0
Adversarial Augmentation Policy Search for Domain and Cross-Lingual Generalization in Reading Comprehension	Apr 13, 2020	Data AugmentationReading Comprehension	—Unverified	0
CLUE: A Chinese Language Understanding Evaluation Benchmark	Apr 13, 2020	General ClassificationMachine Reading Comprehension	CodeCode Available	2
From Machine Reading Comprehension to Dialogue State Tracking: Bridging the Gap	Apr 13, 2020	Dialogue State TrackingMachine Reading Comprehension	CodeCode Available	1
Molweni: A Challenge Multiparty Dialogues-based Machine Reading Comprehension Dataset with Discourse Structure	Apr 10, 2020	Dialogue UnderstandingDiscourse Parsing	CodeCode Available	1
A Sentence Cloze Dataset for Chinese Machine Reading Comprehension	Apr 7, 2020	DiversityMachine Reading Comprehension	CodeCode Available	1
What do Models Learn from Question Answering Datasets?	Apr 7, 2020	Question AnsweringReading Comprehension	CodeCode Available	1
Improving the Robustness of QA Models to Challenge Sets with Variational Question-Answer Pair Generation	Apr 7, 2020	Data AugmentationDiversity	CodeCode Available	0
"You are grounded!": Latent Name Artifacts in Pre-trained Language Models	Apr 6, 2020	Reading Comprehension	CodeCode Available	0
Evaluating Models' Local Decision Boundaries via Contrast Sets	Apr 6, 2020	Reading ComprehensionSentiment Analysis	CodeCode Available	1
Benchmarking Machine Reading Comprehension: A Psychological Perspective	Apr 4, 2020	BenchmarkingMachine Reading Comprehension	—Unverified	0
Graph Sequential Network for Reasoning over Sequences	Apr 4, 2020	Fact VerificationGraph Neural Network	—Unverified	0
R3: A Reading Comprehension Benchmark Requiring Reasoning Processes	Apr 2, 2020	Question AnsweringReading Comprehension	—Unverified	0
Procedural Reading Comprehension with Attribute-Aware Context Flow	Mar 31, 2020	AttributeReading Comprehension	—Unverified	0
TREC CAsT 2019: The Conversational Assistance Track Overview	Mar 30, 2020	Conversational SearchLearning-To-Rank	CodeCode Available	1
TextCaps: a Dataset for Image Captioning with Reading Comprehension	Mar 24, 2020	Image CaptioningOptical Character Recognition	—Unverified	0
A Framework for Evaluation of Machine Reading Comprehension Gold Standards	Mar 10, 2020	Machine Reading ComprehensionReading Comprehension	CodeCode Available	0
GenNet : Reading Comprehension with Multiple Choice Questions using Generation and Selection model	Mar 3, 2020	Answer GenerationMachine Reading Comprehension	—Unverified	0
TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural Language Processing	Feb 28, 2020	Knowledge DistillationReading Comprehension	CodeCode Available	2
Multi-task Learning with Multi-head Attention for Multi-choice Reading Comprehension	Feb 26, 2020	Machine Reading ComprehensionMultiple-choice	—Unverified	0
Annotating and Extracting Synthesis Process of All-Solid-State Batteries from Scientific Literature	Feb 18, 2020	AllReading Comprehension	—Unverified	0
Incorporating BERT into Neural Machine Translation	Feb 17, 2020	DecoderMachine Translation	CodeCode Available	1
Undersensitivity in Neural Reading Comprehension	Feb 15, 2020	Adversarial AttackData Augmentation	—Unverified	0
FQuAD: French Question Answering Dataset	Feb 14, 2020	ArticlesFQuAD	—Unverified	0
ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning	Feb 11, 2020	Logical ReasoningLogical Reasoning Question Answering	CodeCode Available	1
Goal-Oriented Multi-Task BERT-Based Dialogue State Tracker	Feb 5, 2020	Dialogue State TrackingQuestion Answering	—Unverified	0
Beat the AI: Investigating Adversarial Human Annotation for Reading Comprehension	Feb 2, 2020	Reading Comprehension	CodeCode Available	1
Break It Down: A Question Understanding Benchmark	Jan 31, 2020	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Data Mining in Clinical Trial Text: Transformers for Classification and Question Answering Tasks	Jan 30, 2020	Entity Extraction using GANGeneral Classification	CodeCode Available	1
Asking Questions the Human Way: Scalable Question-Answer Generation from Text Corpus	Jan 27, 2020	Answer GenerationChatbot	CodeCode Available	1
Retrospective Reader for Machine Reading Comprehension	Jan 27, 2020	Machine Reading ComprehensionQuestion Answering	CodeCode Available	1
DUMA: Reading Comprehension with Transposition Thinking	Jan 26, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
A Study of the Tasks and Models in Machine Reading Comprehension	Jan 23, 2020	Machine Reading ComprehensionReading Comprehension	—Unverified	0
Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension	Jan 16, 2020	Machine Reading ComprehensionMultiple-choice	—Unverified	0
A BERT based Sentiment Analysis and Key Entity Detection Approach for Online Financial Texts	Jan 14, 2020	Ensemble LearningMachine Reading Comprehension	—Unverified	0
A Survey on Machine Reading Comprehension Systems	Jan 6, 2020	Answer GenerationMachine Reading Comprehension	—Unverified	0
Read Beyond the Lines: Understanding the Implied Textual Meaning via a Skim and Intensive Reading Model	Jan 3, 2020	Reading ComprehensionSensitivity	—Unverified	0

Show:10 25 50

← PrevPage 21 of 36Next →

All datasets ReClor RACE MuSeRC AdversarialQA CrowdSource QA RadQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Rational Reasoner / IDOL	Test	80.6	—	Unverified
2	AMR-LE-Ensemble	Test	80	—	Unverified
3	MERIt-deberta-v2-xxlarge deberta.v2.xxlarge.path.override_True.norm_1.1.0.w2.A100.cp200.s42	Test	79.3	—	Unverified
4	MERIt(MERIt-deberta-v2-xxlarge )	Test	79.3	—	Unverified
5	Knowledge model	Test	79.2	—	Unverified
6	DeBERTa-v2-xxlarge-AMR-LE-Contraposition	Test	77.2	—	Unverified
7	LReasoner ensemble	Test	76.1	—	Unverified
8	ELECTRA and ALBERT	Test	71	—	Unverified
9	WWZ	Test	69.7	—	Unverified
10	xlnet-large-uncased [extended data]	Test	69.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ALBERT (Ensemble)	Accuracy	91.4	—	Unverified
2	Megatron-BERT (ensemble)	Accuracy	90.9	—	Unverified
3	ALBERTxxlarge+DUMA(ensemble)	Accuracy	89.8	—	Unverified
4	Megatron-BERT	Accuracy	89.5	—	Unverified
5	XLNet	Accuracy (Middle)	88.6	—	Unverified
6	DeBERTalarge	Accuracy	86.8	—	Unverified
7	B10-10-10	Accuracy	85.7	—	Unverified
8	RoBERTa	Accuracy	83.2	—	Unverified
9	Orca 2-13B	Accuracy	82.87	—	Unverified
10	Orca 2-7B	Accuracy	80.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Golden Transformer	Average F1	0.94	—	Unverified
2	MT5 Large	Average F1	0.84	—	Unverified
3	ruRoberta-large finetune	Average F1	0.83	—	Unverified
4	ruT5-large-finetune	Average F1	0.82	—	Unverified
5	Human Benchmark	Average F1	0.81	—	Unverified
6	ruT5-base-finetune	Average F1	0.77	—	Unverified
7	ruBert-large finetune	Average F1	0.76	—	Unverified
8	ruBert-base finetune	Average F1	0.74	—	Unverified
9	RuGPT3XL few-shot	Average F1	0.74	—	Unverified
10	RuGPT3Large	Average F1	0.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-Large	Overall: F1	64.4	—	Unverified
2	BERT-Large	Overall: F1	62.7	—	Unverified
3	BiDAF	Overall: F1	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT	MSE	0.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT pretrained on MIMIC-III	Answer F1	63.55	—	Unverified