Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5051–5075 of 10817 papers

Title	Date	Tasks	Status
Improving Lexical Embeddings for Robust Question Answering	Feb 28, 2022	Question Answering	—Unverified
Is Relevance Propagated from Retriever to Generator in RAG?	Feb 20, 2025	Large Language ModelQuestion Answering	—Unverified
Is Retriever Merely an Approximator of Reader?	Oct 21, 2020	Open-Domain Question AnsweringQuestion Answering	—Unverified
Improving Legal Information Retrieval by Distributional Composition with Term Order Probabilities	Jun 4, 2017	Information RetrievalQuestion Answering	—Unverified
CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity	Apr 16, 2024	Question Answering	—Unverified
Improving Large-Scale Fact-Checking using Decomposable Attention Models and Lexical Tagging	Oct 1, 2018	Fact CheckingQuestion Answering	—Unverified
Is Summary Useful or Not? An Extrinsic Human Evaluation of Text Summaries on Downstream Tasks	May 24, 2023	InformativenessQuestion Answering	—Unverified
Is Table Retrieval a Solved Problem? Exploring Join-Aware Multi-Table Retrieval	Apr 15, 2024	Open-Domain Question AnsweringQuestion Answering	—Unverified
Attention-based Pairwise Multi-Perspective Convolutional Neural Network for Answer Selection in Question Answering	Sep 3, 2019	Answer SelectionInformation Retrieval	—Unverified
Analyzing Chain-of-Thought Prompting in Large Language Models via Gradient-based Feature Attributions	Jul 25, 2023	Question Answering	—Unverified
"Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration	Aug 30, 2024	Embodied Question AnsweringQuestion Answering	—Unverified
Is This Just Fantasy? Language Model Representations Reflect Human Judgments of Event Plausibility	Jul 16, 2025	Language ModelingLanguage Modelling	—Unverified
Cost-efficient Knowledge-based Question Answering with Large Language Models	May 27, 2024	Knowledge GraphsModel Selection	—Unverified
Iterated learning for emergent systematicity in VQA	May 3, 2021	Question AnsweringSystematic Generalization	—Unverified
Improving Knowledge Base Construction from Robust Infobox Extraction	Jun 1, 2019	Entity DisambiguationEntity Linking	—Unverified
Cost-Adaptive Recourse Recommendation by Adaptive Preference Elicitation	Feb 23, 2024	Question Answering	—Unverified
Attention-based model for predicting question relatedness on Stack Overflow	Mar 19, 2021	Question AnsweringSentence	—Unverified
Iterative Multi-document Neural Attention for Multiple Answer Prediction	Feb 8, 2017	PredictionQuestion Answering	—Unverified
Iterative Scene Graph Generation with Generative Transformers	Nov 30, 2022	Graph GenerationLink Prediction	—Unverified
Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy	Jun 17, 2024	Answer GenerationInformation Retrieval	—Unverified
ITFormer: Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset	Jun 25, 2025	Computational EfficiencyQuestion Answering	—Unverified
Improving Implicit Discourse Relation Recognition Through Feature Set Optimization	Jul 1, 2012	Natural Language InferenceQuestion Answering	—Unverified
It is AI’s Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset	Nov 16, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
It is AI’s Turn to Ask Humans a Question: Question-Answer Pair Generation for Children’s Story Books	May 1, 2022	Answer GenerationQuestion-Answer-Generation	—Unverified
Improving Implicit Discourse Relation Recognition with Discourse-specific Word Embeddings	Jul 1, 2017	General ClassificationMachine Translation	—Unverified

Show:10 25 50

← PrevPage 203 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified