Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9851–9875 of 10817 papers

Title	Date	Tasks	Status
Zero-shot 3D Question Answering via Voxel-based Dynamic Token Compression	Jan 1, 2025	Question Answering	—Unverified
Zero-shot Action Localization via the Confidence of Large Vision-Language Models	Oct 18, 2024	Action LocalizationLanguage Modelling	—Unverified
Zero-Shot Anomaly Detection in Battery Thermal Images Using Visual Question Answering with Prior Knowledge	May 22, 2025	Anomaly DetectionQuestion Answering	—Unverified
Zero-Shot Clinical Questionnaire Filling From Human-Machine Interactions	Nov 1, 2021	Question Answeringtext-classification	—Unverified
Zero-shot cross-lingual open domain question answering	Jul 1, 2022	DecoderOpen-Domain Question Answering	—Unverified
Zero-Shot End-To-End Spoken Question Answering In Medical Domain	Jun 9, 2024	Answer SelectionQuestion Answering	—Unverified
Zero-Shot Estimation of Base Models' Weights in Ensemble of Machine Reading Comprehension Systems for Robust Generalization	Jun 30, 2021	Domain GeneralizationMachine Reading Comprehension	—Unverified
Zero-shot Event Causality Identification with Question Answering	Sep 1, 2022	ArticlesEvent Causality Identification	—Unverified
Zero-shot Event Extraction via Transfer Learning: Challenges and Insights	Aug 1, 2021	Event ExtractionNatural Language Inference	—Unverified
Zero-shot Generalization in Dialog State Tracking through Generative Question Answering	Jan 20, 2021	dialog state trackingDomain Adaptation	—Unverified
Zero-Shot Long-Form Video Understanding through Screenplay	Jun 25, 2024	FormQuestion Answering	—Unverified
Zero-Shot Multi-Hop Question Answering via Monte-Carlo Tree Search with Large Language Models	Sep 28, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
Zero-Shot Question Answering over Financial Documents using Large Language Models	Nov 19, 2023	Language ModelingLanguage Modelling	—Unverified
Zero-shot Relation Classification as Textual Entailment	Nov 1, 2018	ClassificationGeneral Classification	—Unverified
Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks	Feb 16, 2024	Distractor GenerationQuestion Answering	—Unverified
Zero-shot Task Transfer for Invoice Extraction via Class-aware QA Ensemble	Aug 13, 2021	AvgQuestion Answering	—Unverified
Zero-Shot Text Matching for Automated Auditing using Sentence Transformers	Oct 28, 2022	Information RetrievalQuestion Answering	—Unverified
Zero-Shot Transfer VQA Dataset	Nov 2, 2018	Question AnsweringTransfer Learning	—Unverified
Zero-Shot Video Question Answering with Procedural Programs	Dec 1, 2023	Code GenerationLanguage Modeling	—Unverified
Zero-Shot Visual Question Answering	Nov 17, 2016	Question AnsweringRetrieval	—Unverified
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis	Aug 27, 2024	BenchmarkingLarge Language Model	—Unverified
mForms : Multimodal Form-Filling with Question Answering	Nov 24, 2020	FormQuestion Answering	—Unverified
ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language Models	Dec 21, 2022	Extractive Question-AnsweringLanguage Modeling	—Unverified
Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning	Oct 12, 2023	Image CaptioningImage-text Retrieval	—Unverified
Zoomer: Adaptive Image Focus Optimization for Black-box MLLM	Apr 30, 2025	Image CaptioningObject Recognition	—Unverified

Show:10 25 50

← PrevPage 395 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified