Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3300 of 10817 papers

Title	Date	Tasks	Status	Score
Answer-level Calibration for Free-form Multiple Choice Question Answering	May 1, 2022	FormLanguage Modeling	CodeCode Available	5
PARMA: A Predicate Argument Aligner	Aug 1, 2013	Coreference ResolutionEntity Linking	CodeCode Available	5
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering	May 21, 2024	DiversityInformation Retrieval	CodeCode Available	5
Automatic Extraction of Disease Risk Factors from Medical Publications	Jul 10, 2024	ArticlesQuestion Answering	CodeCode Available	5
Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for Grounding Relative Directions via Multi-Task Learning	Jul 6, 2022	DiagnosticMulti-Task Learning	CodeCode Available	5
KL-Divergence Guided Temperature Sampling	Jun 2, 2023	Conversational Question AnsweringDiversity	CodeCode Available	5
Knowledge Generation for Zero-shot Knowledge-based VQA	Feb 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
Learning to Attend On Essential Terms: An Enhanced Retriever-Reader Model for Open-domain Question Answering	Aug 28, 2018	AI2 Reasoning ChallengeARC	CodeCode Available	5
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering	May 29, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
Multi-Task Dense Retrieval via Model Uncertainty Fusion for Open-Domain Question Answering	Nov 1, 2021	ArticlesOpen-Domain Question Answering	CodeCode Available	5
Key-Value Memory Networks for Directly Reading Documents	Jun 9, 2016	Question Answering	CodeCode Available	5
KERS: A Knowledge-Enhanced Framework for Recommendation Dialog Systems with Multiple Subgoals	Nov 1, 2021	Question AnsweringRecommendation Systems	CodeCode Available	5
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering	May 21, 2025	BenchmarkingLanguage Modeling	CodeCode Available	5
Data-driven Approach for Quality Evaluation on Knowledge Sharing Platform	Mar 1, 2019	Question Answering	CodeCode Available	5
Data Distribution Bottlenecks in Grounding Language Models to Knowledge Bases	Sep 15, 2023	Data AugmentationKnowledge Base Question Answering	CodeCode Available	5
KEPR: Knowledge Enhancement and Plausibility Ranking for Generative Commonsense Question Answering	May 15, 2023	Passage RetrievalQuestion Answering	CodeCode Available	5
KBAlign: Efficient Self Adaptation on Specific Knowledge Bases	Nov 22, 2024	Question AnsweringRAG	CodeCode Available	5
Data Augmentation for Biomedical Factoid Question Answering	Apr 10, 2022	Data AugmentationInformation Retrieval	CodeCode Available	5
Katecheo: A Portable and Modular System for Multi-Topic Question Answering	Jul 1, 2019	ArticlesQuestion Answering	CodeCode Available	5
KazQAD: Kazakh Open-Domain Question Answering Dataset	Apr 6, 2024	Information RetrievalMachine Translation	CodeCode Available	5
DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs	Jun 11, 2024	In-Context LearningKnowledge Graphs	CodeCode Available	5
KaFSP: Knowledge-Aware Fuzzy Semantic Parsing for Conversational Question Answering over a Large-Scale Knowledge Base	May 1, 2022	Conversational Question AnsweringEntity Disambiguation	CodeCode Available	5
KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers	Jun 22, 2021	Question AnsweringSQL Parsing	CodeCode Available	5
K-COMP: Retrieval-Augmented Medical Domain Question Answering With Knowledge-Injected Compressor	Jan 23, 2025	Question AnsweringRAG	CodeCode Available	5
Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue	Sep 7, 2024	Question AnsweringSpeaker Identification	CodeCode Available	5
Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning?	May 13, 2025	Chart Question AnsweringFact Checking	CodeCode Available	5
'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) Tasks	Mar 28, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models	Apr 6, 2024	MMEObject	CodeCode Available	5
Joint Learning of Answer Selection and Answer Summary Generation in Community Question Answering	Nov 22, 2019	Answer SelectionCommunity Question Answering	CodeCode Available	5
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	5
JPAVE: A Generation and Classification-based Model for Joint Product Attribute Prediction and Value Extraction	Nov 7, 2023	AttributeAttribute Value Extraction	CodeCode Available	5
Just ClozE! A Novel Framework for Evaluating the Factual Consistency Faster in Abstractive Summarization	Oct 6, 2022	Abstractive Text SummarizationLanguage Modelling	CodeCode Available	5
D3: Data Diversity Design for Systematic Generalization in Visual Question Answering	Sep 15, 2023	DiversityQuestion Answering	CodeCode Available	5
Pipeline and Dataset Generation for Automated Fact-checking in Almost Any Language	Dec 15, 2023	Dataset GenerationFact Checking	CodeCode Available	5
Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights	May 26, 2025	BenchmarkingQuestion Answering	CodeCode Available	5
Build a Robust QA System with Transformer-based Mixture of Experts	Mar 20, 2022	Data AugmentationMixture-of-Experts	CodeCode Available	5
JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability	Feb 27, 2024	GPUInformation Retrieval	CodeCode Available	5
JNLP Team: Deep Learning for Legal Processing in COLIEE 2020	Nov 4, 2020	Deep LearningInformation Retrieval	CodeCode Available	5
Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications	Jun 12, 2025	Code GenerationQuestion Answering	CodeCode Available	5
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays	May 23, 2025	DiagnosticQuestion Answering	CodeCode Available	5
"John is 50 years old, can his son be 65?" Evaluating NLP Models' Understanding of Feasibility	Oct 14, 2022	Binary ClassificationQuestion Answering	CodeCode Available	5
p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models	Dec 17, 2023	Image CaptioningQuestion Answering	CodeCode Available	5
Building a Dictionary of Affixal Negations	Dec 1, 2016	Natural Language InferenceNegation	CodeCode Available	5
PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable	Oct 17, 2019	Conversational Question AnsweringDialogue Generation	CodeCode Available	5
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation	Jun 7, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	5
Ancient Wisdom, Modern Tools: Exploring Retrieval-Augmented LLMs for Ancient Indian Philosophy	Aug 21, 2024	Information RetrievalLong Form Question Answering	CodeCode Available	5
Is this Change the Answer to that Problem? Correlating Descriptions of Bug and Code Changes for Evaluating Patch Correctness	Aug 8, 2022	Question Answering	CodeCode Available	5
Iterative Alternating Neural Attention for Machine Reading	Jun 7, 2016	ArticlesQuestion Answering	CodeCode Available	5
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA	Jul 22, 2024	BenchmarkingContrastive Learning	CodeCode Available	5
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering	Oct 1, 2022	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 66 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified