Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7076–7100 of 10817 papers

Title	Date	Tasks	Status
On the effectiveness of small, discriminatively pre-trained language representation models for biomedical text mining	Nov 1, 2020	Domain AdaptationGPU	—Unverified
On the Effects of Video Grounding on Language Models	Oct 1, 2022	Image CaptioningQuestion Answering	—Unverified
Event Extraction as Multi-turn Question Answering	Nov 1, 2020	Event ExtractionQuestion Answering	—Unverified
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization	Oct 8, 2018	Question AnsweringVisual Grounding	—Unverified
A Sui Generis QA Approach using RoBERTa for Adverse Drug Event Identification	Oct 30, 2020	Domain AdaptationQuestion Answering	—Unverified
Consecutive Question Generation with Multitask Joint Reranking and Dynamic Rationale Search	Jan 16, 2022	DiversityInformativeness	—Unverified
On the Flip Side: Identifying Counterexamples in Visual Question Answering	Jun 3, 2018	Question AnsweringVisual Question Answering	—Unverified
On-the-fly Text Retrieval for End-to-End ASR Adaptation	Mar 20, 2023	Language ModelingLanguage Modelling	—Unverified
On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering	Feb 24, 2020	Question AnsweringReferring Expression	—Unverified
On the Generation of Medical Question-Answer Pairs	Nov 1, 2018	DecoderDiversity	—Unverified
On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models	Jun 15, 2024	In-Context LearningQuestion Answering	—Unverified
A Multi-Agent Framework for Mitigating Dialect Biases in Privacy Policy Question-Answering Systems	Jun 3, 2025	Question Answering	—Unverified
Hallucination-minimized Data-to-answer Framework for Financial Decision-makers	Nov 9, 2023	Decision MakingHallucination	—Unverified
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models	Jul 4, 2024	HallucinationQuestion Answering	—Unverified
ConQuest: Contextual Question Paraphrasing through Answer-Aware Synthetic Question Generation	Nov 1, 2021	Natural QuestionsQuestion Answering	—Unverified
Overcoming Language Bias in Remote Sensing Visual Question Answering via Adversarial Training	Jun 1, 2023	Question AnsweringVisual Question Answering	—Unverified
On the Importance of Diversity in Question Generation for QA	Jul 1, 2020	DiversityQuestion Answering	—Unverified
On the importance of pre-training data volume for compact language models	Oct 8, 2020	FQuADLanguage Modeling	—Unverified
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Overinformative Question Answering by Humans and Machines	May 11, 2023	Question Answering	—Unverified
On the Limitations of Vision-Language Models in Understanding Image Transforms	Mar 12, 2025	Question AnsweringVideo Generation	—Unverified
CARE: A QLoRA-Fine Tuned Multi-Domain Chatbot With Fast Learning On Minimal Hardware	Mar 18, 2025	ChatbotQuestion Answering	—Unverified
On the Multilingual Capabilities of Very Large-Scale English Language Models	Nov 16, 2021	Extractive Question-AnsweringFew-Shot Learning	—Unverified
Hallucination Detection in LLMs via Topological Divergence on Attention Graphs	Apr 14, 2025	HallucinationQuestion Answering	—Unverified
CONQRR: Conversational Query Rewriting for Retrieval with Reinforcement Learning	Jan 16, 2022	Conversational Question AnsweringPassage Retrieval	—Unverified

Show:10 25 50

← PrevPage 284 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified