Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3051–3075 of 10817 papers

Title	Date	Tasks	Status
DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding	Nov 19, 2024	Question AnsweringVideo Understanding	—Unverified
DynRank: Improving Passage Retrieval with Dynamic Zero-Shot Prompting Based on Question Classification	Nov 30, 2024	Open-Domain Question AnsweringPassage Retrieval	—Unverified
DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models	Mar 14, 2025	Autonomous DrivingComputational Efficiency	—Unverified
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data	Aug 25, 2024	Document SummarizationGeneral Knowledge	—Unverified
An Overview Of Temporal Commonsense Reasoning and Acquisition	Jul 28, 2023	Common Sense ReasoningLanguage Modelling	—Unverified
Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation	Jun 12, 2024	Dialogue GenerationDiversity	—Unverified
Biomedical Document Retrieval for Clinical Decision Support System	Jul 1, 2018	Information RetrievalLearning-To-Rank	—Unverified
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation	Dec 6, 2024	MMEQuestion Answering	—Unverified
A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions	Mar 26, 2024	Gaze Target EstimationQuestion Answering	—Unverified
Biomedical Question Answering: A Survey of Approaches and Challenges	Feb 10, 2021	Information RetrievalMachine Reading Comprehension	—Unverified
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues	Dec 19, 2024	Change DetectionDisaster Response	—Unverified
EarthSE: A Benchmark Evaluating Earth Scientific Exploration Capability for Large Language Models	May 22, 2025	Question AnsweringSpecificity	—Unverified
Dynamic Relevance Graph Network for Knowledge-Aware Question Answering	Jan 16, 2022	Graph Neural NetworkQuestion Answering	—Unverified
Biomedical Question Answering via Weighted Neural Network Passage Retrieval	Jan 9, 2018	Passage RetrievalQuestion Answering	—Unverified
Easy Questions First? A Case Study on Curriculum Learning for Question Answering	Aug 1, 2016	Active LearningQuestion Answering	—Unverified
Biomedical/Clinical NLP	Aug 1, 2014	Coreference ResolutionPart-Of-Speech Tagging	—Unverified
Dynamic Q&A of Clinical Documents with Large Language Models	Jan 19, 2024	ChatbotDecision Making	—Unverified
Dynamic Neural Turing Machine with Soft and Hard Addressing Schemes	Jun 30, 2016	Natural Language InferenceQuestion Answering	—Unverified
BioMedGPT: Open Multimodal Generative Pre-trained Transformer for BioMedicine	Aug 18, 2023	Few-Shot LearningLanguage Modeling	—Unverified
EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering	Jun 29, 2022	Contrastive LearningOut of Distribution (OOD) Detection	—Unverified
Evaluating the Performance and Robustness of LLMs in Materials Science Q&A and Property Predictions	Sep 22, 2024	Band GapIn-Context Learning	—Unverified
Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming	Apr 6, 2023	Machine Reading ComprehensionQuestion Answering	—Unverified
Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks	May 29, 2024	Question AnsweringVisual Question Answering	—Unverified
Dynamic Multistep Reasoning based on Video Scene Graph for Video Question Answering	Jul 1, 2022	Question AnsweringVideo Question Answering	—Unverified
DynamicMind: A Tri-Mode Thinking System for Large Language Models	Jun 6, 2025	Computational EfficiencyPrompt Engineering	—Unverified

Show:10 25 50

← PrevPage 123 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified