Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 10817 papers

Title	Date	Tasks	Status	Hype
Knowledge-Aware Iterative Retrieval for Multi-Agent Systems	Mar 17, 2025	Evidence SelectionLarge Language Model	—Unverified	0
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference	Mar 17, 2025	Feature CompressionImage Compression	—Unverified	0
Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory	Mar 17, 2025	FormGPU	—Unverified	0
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research	Mar 17, 2025	ArticlesBenchmarking	CodeCode Available	1
Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding	Mar 17, 2025	AttributeMME	—Unverified	0
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration	Mar 17, 2025	DenoisingQuestion Answering	—Unverified	0
Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos	Mar 17, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions	Mar 17, 2025	Question Answering	—Unverified	0
MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways	Mar 17, 2025	Decision MakingMedical Question Answering	—Unverified	0
General Table Question Answering via Answer-Formula Joint Generation	Mar 16, 2025	Question Answering	—Unverified	0
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified	0
PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models	Mar 16, 2025	Machine UnlearningPrivacy Preserving	—Unverified	0
MUSS: Multilevel Subset Selection for Relevance and Diversity	Mar 14, 2025	DiversityQuestion Answering	—Unverified	0
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering	Mar 14, 2025	Embodied Question AnsweringQuestion Answering	—Unverified	0
DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models	Mar 14, 2025	Autonomous DrivingComputational Efficiency	—Unverified	0
UMB@PerAnsSumm 2025: Enhancing Perspective-Aware Summarization with Prompt Optimization and Supervised Fine-Tuning	Mar 14, 2025	Community Question AnsweringEnsemble Learning	—Unverified	0
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation	Mar 14, 2025	AttributeQuestion Answering	CodeCode Available	0
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering	Mar 14, 2025	Audio Question AnsweringQuestion Answering	CodeCode Available	3
Learning to Inference Adaptively for Multimodal Large Language Models	Mar 13, 2025	HallucinationQuestion Answering	—Unverified	0
KV-Distill: Nearly Lossless Learnable Context Compression for LLMs	Mar 13, 2025	GPUQuestion Answering	—Unverified	0
Unlock the Power of Unlabeled Data in Language Driving Model	Mar 13, 2025	Autonomous DrivingQuestion Answering	—Unverified	0
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs	Mar 13, 2025	BenchmarkingQuestion Answering	—Unverified	0
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1
Retrieval-Augmented Generation with Hierarchical Knowledge	Mar 13, 2025	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	4
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding	Mar 13, 2025	4kAutonomous Driving	CodeCode Available	2
On the Limitations of Vision-Language Models in Understanding Image Transforms	Mar 12, 2025	Question AnsweringVideo Generation	—Unverified	0
Teaching LMMs for Image Quality Scoring and Interpreting	Mar 12, 2025	DescriptiveImage Quality Assessment	CodeCode Available	2
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language Models	Mar 12, 2025	Mixture-of-ExpertsQuestion Answering	—Unverified	0
SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery	Mar 12, 2025	Activity RecognitionAnatomy	—Unverified	0
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning	Mar 12, 2025	Question AnsweringRAG	CodeCode Available	7
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment	Mar 12, 2025	Autonomous DrivingBench2Drive	CodeCode Available	3
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering	Mar 11, 2025	FormInstruction Following	—Unverified	0
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method	Mar 11, 2025	Language ModelingLanguage Modelling	—Unverified	0
A Survey on Knowledge-Oriented Retrieval-Augmented Generation	Mar 11, 2025	Information RetrievalNatural Language Understanding	—Unverified	0
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation	Mar 11, 2025	Question Answering	CodeCode Available	0
Gradient-guided Attention Map Editing: Towards Efficient Contextual Hallucination Mitigation	Mar 11, 2025	Computational EfficiencyHallucination	—Unverified	0
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified	0
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models	Mar 11, 2025	AttributeMixture-of-Experts	—Unverified	0
FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback	Mar 11, 2025	Autonomous DrivingQuestion Answering	—Unverified	0
MapQA: Open-domain Geospatial Question Answering on Map Data	Mar 10, 2025	DiversityLanguage Modeling	—Unverified	0
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning	Mar 10, 2025	Question Answering	—Unverified	0
From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics	Mar 10, 2025	MathQuestion Answering	—Unverified	0
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning	Mar 10, 2025	BenchmarkingMedical Question Answering	CodeCode Available	2
Towards Fine-Grained Video Question Answering	Mar 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis	Mar 10, 2025	Question Answering	CodeCode Available	2
ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA	Mar 10, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Talking to GDELT Through Knowledge Graphs	Mar 10, 2025	ArticlesKnowledge Graphs	—Unverified	0
KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus	Mar 10, 2025	In-Context LearningQuestion Answering	CodeCode Available	0
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru	Mar 10, 2025	Autonomous DrivingQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 15 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified