Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6901–6925 of 10817 papers

Title	Date	Tasks	Status
Neuro Symbolic Reasoning for Planning: Counterexample Guided Inductive Synthesis using Large Language Models and Satisfiability Solving	Sep 28, 2023	HallucinationQuestion Answering	—Unverified
Neuro-Symbolic Spatio-Temporal Reasoning	Nov 28, 2022	AI AgentImage Segmentation	—Unverified
Can Language Representation Models Think in Bets?	Oct 14, 2022	Decision MakingNatural Language Understanding	—Unverified
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"	Jun 20, 2020	Graph GenerationQuestion Answering	—Unverified
Neuro-Symbolic VQA: A review from the perspective of AGI desiderata	Apr 13, 2021	Question AnsweringVisual Question Answering	—Unverified
Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction	Apr 30, 2024	Brain DecodingImage Reconstruction	—Unverified
On scalable oversight with weak LLMs judging strong LLMs	Jul 5, 2024	Multimodal ReasoningQuestion Answering	—Unverified
On the Cognition of Visual Question Answering Models and Human Intelligence: A Comparative Study	Oct 4, 2023	Question AnsweringVisual Question Answering	—Unverified
On the Effects of Video Grounding on Language Models	Oct 1, 2022	Image CaptioningQuestion Answering	—Unverified
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
Heroes, Villains, and Victims, and GPT-3: Automated Extraction of Character Roles Without Training Data	May 16, 2022	ArticlesQuestion Answering	—Unverified
New Ideas and Trends in Deep Multimodal Content Understanding: A Review	Oct 16, 2020	Cross-Modal RetrievalDeep Learning	—Unverified
New Methods & Metrics for LFQA tasks	Dec 26, 2021	FormLong Form Question Answering	—Unverified
News about the Romanian Wordnet	Jan 1, 2014	Machine TranslationQuestion Answering	—Unverified
HENRY-CORE: Domain Adaptation and Stacking for Text Similarity	Jun 1, 2013	Domain AdaptationMachine Translation	—Unverified
NEWSKVQA: Knowledge-Aware News Video Question Answering	Feb 8, 2022	Common Sense ReasoningManagement	—Unverified
Construction of a Syntactic Analysis Map for Yi Shui School through Text Mining and Natural Language Processing Research	Feb 16, 2024	graph constructionInformation Retrieval	—Unverified
Constructing the CORD-19 Vaccine Dataset	Jul 26, 2024	Question AnsweringSentence	—Unverified
A Survey of Large Language Models for Arabic Language and its Dialects	Oct 26, 2024	Decodernamed-entity-recognition	—Unverified
Online Continual Knowledge Learning for Language Models	Nov 16, 2023	Continual LearningFact Checking	—Unverified
Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention	Mar 14, 2024	Answer GenerationQuestion Answering	—Unverified
NGQA: A Nutritional Graph Question Answering Benchmark for Personalized Health-aware Nutritional Reasoning	Dec 20, 2024	Graph Question AnsweringNutrition	—Unverified
Constructing Micro Knowledge Graphs from Technical Support Documents	Apr 14, 2025	Knowledge GraphsQuestion Answering	—Unverified
A Survey of Large Language Model Agents for Question Answering	Mar 24, 2025	Answer GenerationInformation Retrieval	—Unverified
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information	May 9, 2025	BenchmarkingForm	—Unverified

Show:10 25 50

← PrevPage 277 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified