Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 411–420 of 10817 papers

Title	Date	Tasks	Status	Hype
FinBERT-QA: Financial Question Answering with pre-trained BERT Language Models	Apr 24, 2025	Answer SelectionInformation Retrieval	CodeCode Available	2
Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering	Sep 29, 2023	Image to textPassage Retrieval	CodeCode Available	2
Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models	Apr 16, 2024	image-classificationImage Classification	CodeCode Available	2
EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis	Sep 10, 2024	Contrastive LearningCross-Modal Retrieval	CodeCode Available	2
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	Oct 23, 2019	Answer GenerationCommon Sense Reasoning	CodeCode Available	2
FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models	Apr 20, 2024	Binary ClassificationFake Image Detection	CodeCode Available	2
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models	Feb 20, 2025	Question AnsweringVisual Question Answering	CodeCode Available	2
Cross-Task Generalization via Natural Language Crowdsourcing Instructions	Apr 18, 2021	Question Answering	CodeCode Available	2
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator	Feb 15, 2024	BenchmarkingDiagnostic	CodeCode Available	2
Ask Me Anything: A simple strategy for prompting language models	Oct 5, 2022	Coreference ResolutionNatural Language Inference	CodeCode Available	2

Show:10 25 50

← PrevPage 42 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified