Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8151–8175 of 10817 papers

Title	Date	Tasks	Status
Assessing SRL Frameworks with Automatic Training Data Expansion	Apr 1, 2017	Question AnsweringSemantic Role Labeling	—Unverified
Relation Extraction: Perspective from Convolutional Neural Networks	Jun 1, 2015	ChunkingFeature Engineering	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
Relation-Guided Pre-Training for Open-Domain Question Answering	Sep 21, 2021	Natural QuestionsOpen-Domain Question Answering	—Unverified
Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation	Oct 27, 2024	parameter-efficient fine-tuningQuestion Answering	—Unverified
Relative Overfitting and Accept-Reject Framework	May 12, 2025	Language ModelingLanguage Modelling	—Unverified
Releasing the CRaQAn (Coreference Resolution in Question-Answering): An open-source dataset and dataset creation methodology using instruction-following models	Nov 27, 2023	Chunkingcoreference-resolution	—Unverified
GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval	Apr 26, 2021	Passage RetrievalQuestion Answering	—Unverified
Compact Tensor Pooling for Visual Question Answering	Jun 20, 2017	Question AnsweringVisual Question Answering	—Unverified
Reliable, Adaptable, and Attributable Language Models with Retrieval	Mar 5, 2024	Question AnsweringRetrieval	—Unverified
German FinBERT: A German Pre-trained Language Model	Nov 15, 2023	Language ModelingLanguage Modelling	—Unverified
RELLY: Inferring Hypernym Relationships Between Relational Phrases	Sep 1, 2015	Open Information ExtractionProbabilistic Programming	—Unverified
Assessing Robustness to Spurious Correlations in Post-Training Language Models	May 9, 2025	Instruction FollowingMathematical Reasoning	—Unverified
ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding	Jul 7, 2025	HallucinationQuestion Answering	—Unverified
Retrieval Augmented Generation for Domain-specific Question Answering	Apr 23, 2024	Language ModelingLanguage Modelling	—Unverified
Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering	Aug 30, 2024	DecoderLanguage Modeling	—Unverified
Retrieval Data Augmentation Informed by Downstream Question Answering Performance	Nov 16, 2021	Data AugmentationQuestion Answering	—Unverified
Retrieval, Re-ranking and Multi-task Learning for Knowledge-Base Question Answering	Apr 1, 2021	Entity LinkingInformation Retrieval	—Unverified
Full-Time Supervision based Bidirectional RNN for Factoid Question Answering	Jun 19, 2016	Question Answering	—Unverified
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified
GeoRAG: A Question-Answering Approach from a Geographical Perspective	Apr 2, 2025	AttributeGeographic Question Answering	—Unverified
CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising	Dec 14, 2021	Cross-Modal RetrievalDecoder	—Unverified
REM-Net: Recursive Erasure Memory Network for Commonsense Evidence Refinement	Dec 24, 2020	Question AnsweringWorld Knowledge	—Unverified
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment	Dec 12, 2023	image-classificationImage Classification	—Unverified
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing	Jan 12, 2025	Image CaptioningLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 327 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified