Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8926–8950 of 10817 papers

Title	Date	Tasks	Status
Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following	Jun 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Improving Machine Reading Comprehension with General Reading Strategies	Oct 31, 2018	ARCLanguage Modeling	CodeCode Available
A Study of MatchPyramid Models on Ad-hoc Retrieval	Jun 15, 2016	Machine TranslationParaphrase Identification	CodeCode Available
Adaptively Clustering Neighbor Elements for Image-Text Generation	Jan 5, 2023	ClusteringDecoder	CodeCode Available
RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions	Aug 16, 2024	Question Answering	CodeCode Available
OpenKE: An Open Toolkit for Knowledge Embedding	Nov 1, 2018	Information RetrievalKnowledge Graphs	CodeCode Available
MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense Retrieval	Feb 23, 2023	Question AnsweringRetrieval	CodeCode Available
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs	Oct 15, 2024	Image DescriptionMultiple-choice	CodeCode Available
Improving the Cross-Lingual Generalisation in Visual Question Answering	Sep 7, 2022	Cross-Lingual TransferQuestion Answering	CodeCode Available
MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning	Jul 6, 2024	Embodied Question AnsweringQuestion Answering	CodeCode Available
Answer Consolidation: Formulation and Benchmarking	Apr 29, 2022	BenchmarkingQuestion Answering	CodeCode Available
Improving the Robustness of Question Answering Systems to Question Paraphrasing	Jul 1, 2019	Data AugmentationQuestion Answering	CodeCode Available
ASQA: Factoid Questions Meet Long-Form Answers	Apr 12, 2022	FormQuestion Answering	CodeCode Available
Differentiating Choices via Commonality for Multiple-Choice Question Answering	Aug 21, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available
Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering	Sep 8, 2018	Question AnsweringRetrieval	CodeCode Available
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding	Jan 11, 2020	Image CaptioningImage-text Retrieval	CodeCode Available
From Multiple-Choice to Extractive QA: A Case Study for English and Arabic	Apr 26, 2024	BelebeleExtractive Question-Answering	CodeCode Available
Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers	Mar 27, 2024	Generative Question AnsweringInformation Retrieval	CodeCode Available
Differential Attention for Visual Question Answering	Apr 1, 2018	Question AnsweringVisual Question Answering	CodeCode Available
Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning	Jun 5, 2025	Question AnsweringRAG	CodeCode Available
CaLMQA: Exploring culturally specific long-form question answering across 23 languages	Jun 25, 2024	FormLong Form Question Answering	CodeCode Available
Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index	Jun 13, 2019	GPUOpen-Domain Question Answering	CodeCode Available
BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference	Oct 30, 2024	Computational EfficiencyQuestion Answering	CodeCode Available
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Feb 11, 2023	Image-text RetrievalKnowledge Graphs	CodeCode Available
Open-Set Knowledge-Based Visual Question Answering with Inference Paths	Oct 12, 2023	Knowledge GraphsMulti-class Classification	CodeCode Available

Show:10 25 50

← PrevPage 358 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified