Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10626–10650 of 10817 papers

Title	Date	Tasks	Status
Tip of the Tongue Query Elicitation for Simulated Evaluation	Feb 25, 2025	Community Question AnsweringQuestion Answering	CodeCode Available
Weakly-Supervised Open-Retrieval Conversational Question Answering	Mar 3, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives	Jun 22, 2022	Feature ImportanceQuestion Answering	CodeCode Available
Weakly-Supervised Questions for Zero-Shot Relation Extraction	Jan 21, 2023	Question AnsweringRelation	CodeCode Available
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs	May 16, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available
Unification-based Reconstruction of Multi-hop Explanations for Science Questions	Mar 31, 2020	ClusteringInformation Retrieval	CodeCode Available
Single Sequence Prediction over Reasoning Graphs for Multi-hop QA	Jul 1, 2023	DecoderGraph Neural Network	CodeCode Available
Vision-and-Language Pretraining	Jul 5, 2022	Diversityimage-classification	CodeCode Available
Unified Language Model Pre-training for Natural Language Understanding and Generation	May 8, 2019	Abstractive Text SummarizationDocument Summarization	CodeCode Available
Why do These Match? Explaining the Behavior of Image Similarity Models	May 26, 2019	AttributeGeneral Classification	CodeCode Available
TIMEN: An Open Temporal Expression Normalisation Resource	May 1, 2012	Information RetrievalKnowledge Base Population	CodeCode Available
SciDTB: Discourse Dependency TreeBank for Scientific Abstracts	Jun 10, 2018	ArticlesMachine Translation	CodeCode Available
TimelineKGQA: A Comprehensive Question-Answer Pair Generator for Temporal Knowledge Graphs	Jan 8, 2025	Knowledge GraphsQuestion Answering	CodeCode Available
TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models	May 21, 2025	Human AgingQuestion Answering	CodeCode Available
Time-Aware Representation Learning for Time-Sensitive Question Answering	Oct 19, 2023	Question AnsweringRepresentation Learning	CodeCode Available
Unified Question Answering in Slovene	Nov 16, 2022	Cross-Lingual TransferDecoder	CodeCode Available
(WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges	Jan 3, 2025	Multiple-choiceQuestion Answering	CodeCode Available
TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored Models	Aug 7, 2023	backdoor defenseobject-detection	CodeCode Available
TIARA: Multi-grained Retrieval for Robust Question Answering over Large Knowledge Bases	Oct 24, 2022	Question AnsweringRetrieval	CodeCode Available
Uniform Complexity for Text Generation	Apr 11, 2022	Machine TranslationQuestion Answering	CodeCode Available
SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine	Apr 18, 2017	Open-Domain Question AnsweringQuestion Answering	CodeCode Available
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge	Mar 14, 2018	AI2 Reasoning ChallengeARC	CodeCode Available
SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers	Nov 8, 2024	ArticlesQuestion Answering	CodeCode Available
Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo	May 3, 2024	BenchmarkingMulti-hop Question Answering	CodeCode Available

Show:10 25 50

← PrevPage 426 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified