Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4651–4700 of 10817 papers

Title	Date	Tasks	Status
Curriculum Learning Based on Reward Sparseness for Deep Reinforcement Learning of Task Completion Dialogue Management	Oct 1, 2018	Deep Reinforcement LearningDialogue Management	—Unverified
Automated Extraction of Number of Subjects in Randomised Controlled Trials	Jun 22, 2016	ArticlesGeneral Classification	—Unverified
Curio SmartChat : A system for Natural Language Question Answering for Self-Paced K-12 Learning	Aug 1, 2019	Question Answering	—Unverified
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified
An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation	Oct 16, 2024	Dialogue GenerationQuestion Answering	—Unverified
CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval	Oct 25, 2023	Information RetrievalMachine Translation	—Unverified
Cultural Palette: Pluralising Culture Alignment via Multi-agent Palette	Dec 15, 2024	Large Language ModelQuestion Answering	—Unverified
Automated Discovery of Mathematical Definitions in Text with Deep Neural Networks	Nov 9, 2020	Binary ClassificationDefinition Extraction	—Unverified
An automatically discovered chain-of-thought prompt generalizes to novel models and datasets	May 4, 2023	Question Answering	—Unverified
Automated Discovery of Mathematical Definitions in Text	May 1, 2020	ArticlesBinary Classification	—Unverified
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified
Investigating Information Inconsistency in Multilingual Open-Domain Question Answering	May 25, 2022	Open-Domain Question AnsweringQuestion Answering	—Unverified
Investigating the Challenges of Temporal Relation Extraction from Clinical Text	Oct 1, 2018	Named Entity Recognition (NER)Question Answering	—Unverified
CUB: Benchmarking Context Utilisation Techniques for Language Models	May 22, 2025	BenchmarkingFact Checking	—Unverified
Automated CVE Analysis: Harnessing Machine Learning In Designing Question-Answering Models For Cybersecurity Information Extraction	Dec 21, 2024	Question Answering	—Unverified
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning	Mar 27, 2025	Image GenerationObject	—Unverified
CTPs: Contextual Temporal Profiles for Time Scoping Facts using State Change Detection	Oct 1, 2014	Change DetectionQuestion Answering	—Unverified
An Automated Question-Answering Framework Based on Evolution Algorithm	Jan 26, 2022	Question Answering	—Unverified
CT-Agent: A Multimodal-LLM Agent for 3D CT Radiology Question Answering	May 22, 2025	Computed Tomography (CT)Question Answering	—Unverified
Automated Construction of Theme-specific Knowledge Graphs	Apr 29, 2024	Knowledge GraphsQuestion Answering	—Unverified
CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart	Oct 28, 2024	Question Answering	—Unverified
CS-VQA: Visual Question Answering with Compressively Sensed Images	Jun 8, 2018	Question AnsweringVisual Question Answering	—Unverified
Automated assessment of knowledge hierarchy evolution: comparing directed acyclic graphs	Jun 1, 2019	Knowledge Graph CompletionKnowledge Graphs	—Unverified
An Augmented Benchmark Dataset for Geometric Question Answering through Dual Parallel Text Encoding	Oct 1, 2022	Data AugmentationMath	—Unverified
Adopting the Word-Pair-Dependency-Triplets with Individual Comparison for Natural Language Inference	Aug 1, 2018	Decision MakingMachine Translation	—Unverified
Automated Answer Validation using Text Similarity	Jan 13, 2024	Information RetrievalMultiple-choice	—Unverified
An Audio-enriched BERT-based Framework for Spoken Multiple-choice Question Answering	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CSS: Combining Self-training and Self-supervised Learning for Few-shot Dialogue State Tracking	Oct 11, 2022	Dialogue State TrackingMachine Reading Comprehension	—Unverified
CSReader at SemEval-2018 Task 11: Multiple Choice Question Answering as Textual Entailment	Jun 1, 2018	Common Sense ReasoningLanguage Modelling	—Unverified
AutoKnow: Self-Driving Knowledge Collection for Products of Thousands of Types	Jun 24, 2020	Anomaly DetectionKnowledge Graphs	—Unverified
A Domain and Language Independent Named Entity Classification Approach Based on Profiles and Local Information	Sep 1, 2017	General ClassificationNamed Entity Recognition (NER)	—Unverified
CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP Deep Learning Architectures on Commonsense Reasoning Task	May 17, 2020	Multiple-choiceNatural Language Inference	—Unverified
AUTOHOME-ORCA at SemEval-2019 Task 8: Application of BERT for Fact-Checking in Community Forums	Jun 1, 2019	Community Question AnsweringFact Checking	—Unverified
CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass	May 1, 2025	Contrastive LearningInformation Retrieval	—Unverified
CSAT‑FTCN: A Fuzzy‑Oriented Model with Contextual Self‑attention Network for Multimodal Emotion Recognition	Jan 31, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
A Natural Language Instructor for pedestrian navigation based in generation by selection	Apr 1, 2014	Question AnsweringText Generation	—Unverified
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings	Jan 14, 2025	BenchmarkingQuestion Answering	—Unverified
IPFormer-VideoLLM: Enhancing Multi-modal Video Understanding for Multi-shot Scenes	Jun 26, 2025	AttributeQuestion Answering	—Unverified
CS563-QA: A Collection for Evaluating Question Answering Systems	Jul 2, 2019	Natural Language UnderstandingQuestion Answering	—Unverified
An Attentive Sequence Model for Adverse Drug Event Extraction from Biomedical Text	Jan 2, 2018	Event ExtractionGeneral Classification	—Unverified
Crowdsourcing Inference-Rule Evaluation	Jul 1, 2012	Natural Language InferenceQuestion Answering	—Unverified
Crowdsourcing for the identification of event nominals: an experiment	May 1, 2014	Question Answering	—Unverified
AutoEQA: Auto-Encoding Questions for Extractive Question Answering	Nov 1, 2021	Extractive Question-AnsweringQuestion Answering	—Unverified
Crowdsourcing for (almost) Real-time Question Answering	Jun 1, 2016	Community Question AnsweringQuestion Answering	—Unverified
CROWD-IN-THE-LOOP: A Hybrid Approach for Annotating Semantic Roles	Sep 1, 2017	Machine TranslationQuestion Answering	—Unverified
AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models	Mar 20, 2025	Autonomous DrivingMultiple-choice	—Unverified
An Attention Mechanism for Answer Selection Using a Combined Global and Local View	Jul 5, 2017	Answer SelectionQuestion Answering	—Unverified
ADMUS: A Progressive Question Answering Framework Adaptable to Multiple Knowledge Sources	Aug 9, 2023	Knowledge Base Question AnsweringQuestion Answering	—Unverified
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified

Show:10 25 50

← PrevPage 94 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified