Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10651–10700 of 10817 papers

Title	Date	Tasks	Status
Think Visually: Question Answering through Virtual Imagery	May 25, 2018	Question AnsweringVisual Commonsense Reasoning	CodeCode Available
Symbolic Priors for RNN-based Semantic Parsing	Sep 20, 2018	Question AnsweringSemantic Parsing	CodeCode Available
SyllabusQA: A Course Logistics Question Answering Dataset	Mar 3, 2024	Language ModelingLanguage Modelling	CodeCode Available
Unifying Text, Tables, and Images for Multimodal Question Answering	Dec 10, 2023	Image CaptioningQuestion Answering	CodeCode Available
Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models	May 11, 2023	Question Answering	CodeCode Available
SwissAlps at SemEval-2017 Task 3: Attention-based Convolutional Neural Network for Community Question Answering	Aug 1, 2017	Community Question AnsweringQuestion Answering	CodeCode Available
Think before You Simulate: Symbolic Reasoning to Orchestrate Neural Computation for Counterfactual Question Answering	Jun 12, 2025	counterfactualCounterfactual Reasoning	CodeCode Available
X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization in Visual Question Answering	Jul 24, 2021	AttributeOut-of-Distribution Generalization	CodeCode Available
Thieves on Sesame Street! Model Extraction of BERT-based APIs	Oct 27, 2019	Language ModelingLanguage Modelling	CodeCode Available
SWI: Speaking with Intent in Large Language Models	Mar 27, 2025	Mathematical ReasoningQuestion Answering	CodeCode Available
UNIMELB at SemEval-2016 Tasks 4A and 4B: An Ensemble of Neural Networks and a Word2Vec Based Model for Sentiment Classification	Jun 1, 2016	Document ClassificationLanguage Modeling	CodeCode Available
Simple Applications of BERT for Ad Hoc Document Retrieval	Mar 26, 2019	Ad-Hoc Information RetrievalQuestion Answering	CodeCode Available
SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks	Nov 29, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Simple and Effective Text Matching with Richer Alignment Features	Aug 1, 2019	Answer SelectionNatural Language Inference	CodeCode Available
They Exist! Introducing Plural Mentions to Coreference Resolution and Entity Linking	Aug 1, 2018	coreference-resolutionCoreference Resolution	CodeCode Available
Supervised Knowledge Makes Large Language Models Better In-context Learners	Dec 26, 2023	In-Context LearningNatural Language Understanding	CodeCode Available
Self Question-answering: Aspect-based Sentiment Analysis by Role Flipped Machine Reading Comprehension	Nov 1, 2021	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	CodeCode Available
UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding	Jun 24, 2024	Data AugmentationNatural Language Understanding	CodeCode Available
The TechQA Dataset	Nov 8, 2019	Domain AdaptationQuestion Answering	CodeCode Available
The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries	Dec 30, 2019	Abstractive Text SummarizationForm	CodeCode Available
The Role of Output Vocabulary in T2T LMs for SPARQL Semantic Parsing	May 24, 2023	Graph Question AnsweringQuestion Answering	CodeCode Available
The representation landscape of few-shot learning and fine-tuning in large language models	Sep 5, 2024	Few-Shot LearningIn-Context Learning	CodeCode Available
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models	Dec 30, 2024	Question AnsweringScene Classification	CodeCode Available
SemEval-2019 Task 10: Math Question Answering	Jun 1, 2019	MathQuestion Answering	CodeCode Available
WebQAmGaze: A Multilingual Webcam Eye-Tracking-While-Reading Dataset	Mar 31, 2023	Question Answering	CodeCode Available
SUNNYNLP at SemEval-2018 Task 10: A Support-Vector-Machine-Based Method for Detecting Semantic Difference using Taxonomy and Word Embedding Features	Jun 1, 2018	Dialogue State TrackingQuestion Answering	CodeCode Available
There is No Big Brother or Small Brother: Knowledge Infusion in Language Models for Link Prediction and Question Answering	Jan 10, 2023	Knowledge GraphsLink Prediction	CodeCode Available
Similar Cases Recommendation using Legal Knowledge Graphs	Jul 10, 2021	Knowledge GraphsQuestion Answering	CodeCode Available
WikiCausal: Corpus and Evaluation Framework for Causal Knowledge Graph Construction	Aug 31, 2024	Articlesgraph construction	CodeCode Available
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments	Nov 16, 2023	Natural Language UnderstandingNegation	CodeCode Available
Sim2Real Transfer for Vision-Based Grasp Verification	May 5, 2025	Objectobject-detection	CodeCode Available
The Promise of Premise: Harnessing Question Premises in Visual Question Answering	May 1, 2017	Question AnsweringRelevance Detection	CodeCode Available
The price of debiasing automatic metrics in natural language evaluation	Jul 6, 2018	Question Answering	CodeCode Available
The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision	Apr 26, 2019	Image-text RetrievalObject	CodeCode Available
WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning	Dec 20, 2022	Natural Language InferenceQuestion Answering	CodeCode Available
Subjective Question Answering: Deciphering the inner workings of Transformers in the realm of subjectivity	Jun 2, 2020	Opinion MiningQuestion Answering	CodeCode Available
Universal Semantic Parsing	Feb 10, 2017	Question AnsweringSemantic Parsing	CodeCode Available
Weisfeiler and Leman Go Relational	Nov 30, 2022	Knowledge GraphsLogical Reasoning	CodeCode Available
Structured Triplet Learning with POS-tag Guided Attention for Visual Question Answering	Jan 24, 2018	Multiple-choicePOS	CodeCode Available
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language	Nov 8, 2023	Image CaptioningLanguage Modeling	CodeCode Available
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation	May 1, 2025	Question AnsweringSpecificity	CodeCode Available
Structural Self-Supervised Objectives for Transformers	Sep 15, 2023	Fact VerificationLanguage Modeling	CodeCode Available
Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models	Oct 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Evaluating Search Engines and Large Language Models for Answering Health Questions	Jul 17, 2024	MisinformationNavigate	CodeCode Available
Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding	Dec 11, 2023	Question AnsweringText Generation	CodeCode Available
The NarrativeQA Reading Comprehension Challenge	Dec 19, 2017	Information RetrievalQuestion Answering	CodeCode Available
Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering	Sep 24, 2024	Answer GenerationQuestion Answering	CodeCode Available
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	Nov 21, 2024	Question AnsweringVisual Grounding	CodeCode Available
Stochastic Answer Networks for SQuAD 2.0	Sep 24, 2018	Machine Reading ComprehensionQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 214 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified