Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 726–750 of 10817 papers

Title	Date	Tasks	Status	Hype
On the Limitations of Vision-Language Models in Understanding Image Transforms	Mar 12, 2025	Question AnsweringVideo Generation	—Unverified	0
Teaching LMMs for Image Quality Scoring and Interpreting	Mar 12, 2025	DescriptiveImage Quality Assessment	CodeCode Available	2
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language Models	Mar 12, 2025	Mixture-of-ExpertsQuestion Answering	—Unverified	0
SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery	Mar 12, 2025	Activity RecognitionAnatomy	—Unverified	0
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning	Mar 12, 2025	Question AnsweringRAG	CodeCode Available	7
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment	Mar 12, 2025	Autonomous DrivingBench2Drive	CodeCode Available	3
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering	Mar 11, 2025	FormInstruction Following	—Unverified	0
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method	Mar 11, 2025	Language ModelingLanguage Modelling	—Unverified	0
A Survey on Knowledge-Oriented Retrieval-Augmented Generation	Mar 11, 2025	Information RetrievalNatural Language Understanding	—Unverified	0
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation	Mar 11, 2025	Question Answering	CodeCode Available	0
Gradient-guided Attention Map Editing: Towards Efficient Contextual Hallucination Mitigation	Mar 11, 2025	Computational EfficiencyHallucination	—Unverified	0
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified	0
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models	Mar 11, 2025	AttributeMixture-of-Experts	—Unverified	0
FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback	Mar 11, 2025	Autonomous DrivingQuestion Answering	—Unverified	0
MapQA: Open-domain Geospatial Question Answering on Map Data	Mar 10, 2025	DiversityLanguage Modeling	—Unverified	0
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning	Mar 10, 2025	Question Answering	—Unverified	0
From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics	Mar 10, 2025	MathQuestion Answering	—Unverified	0
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning	Mar 10, 2025	BenchmarkingMedical Question Answering	CodeCode Available	2
Towards Fine-Grained Video Question Answering	Mar 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis	Mar 10, 2025	Question Answering	CodeCode Available	2
ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA	Mar 10, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Talking to GDELT Through Knowledge Graphs	Mar 10, 2025	ArticlesKnowledge Graphs	—Unverified	0
KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus	Mar 10, 2025	In-Context LearningQuestion Answering	CodeCode Available	0
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru	Mar 10, 2025	Autonomous DrivingQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 30 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified