Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 10817 papers

Title	Date	Tasks	Status	Hype
Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis	Mar 25, 2025	Contrastive LearningImage-text Retrieval	CodeCode Available	2
MC-LLaVA: Multi-Concept Personalized Vision-Language Model	Mar 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
LLaVAction: evaluating and training multi-modal large language models for action recognition	Mar 24, 2025	Action RecognitionAction Understanding	CodeCode Available	2
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models	Mar 21, 2025	GSM8KQuestion Answering	CodeCode Available	2
Where do Large Vision-Language Models Look at when Answering Questions?	Mar 18, 2025	Question AnsweringVisual Question Answering	CodeCode Available	2
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding	Mar 13, 2025	4kAutonomous Driving	CodeCode Available	2
Teaching LMMs for Image Quality Scoring and Interpreting	Mar 12, 2025	DescriptiveImage Quality Assessment	CodeCode Available	2
A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis	Mar 10, 2025	Question Answering	CodeCode Available	2
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning	Mar 10, 2025	BenchmarkingMedical Question Answering	CodeCode Available	2
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model	Mar 6, 2025	General KnowledgeImage Captioning	CodeCode Available	2
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM	Mar 6, 2025	Anomaly DetectionLanguage Modeling	CodeCode Available	2
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking	Mar 2, 2025	Fact CheckingFact Verification	CodeCode Available	2
Streaming Video Question-Answering with In-context Video KV-Cache Retrieval	Mar 1, 2025	GPUQuestion Answering	CodeCode Available	2
LevelRAG: Enhancing Retrieval-Augmented Generation with Multi-hop Logic Planning over Rewriting Augmented Searchers	Feb 25, 2025	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	2
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts	Feb 24, 2025	BenchmarkingFact Verification	CodeCode Available	2
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models	Feb 20, 2025	Question AnsweringVisual Question Answering	CodeCode Available	2
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization	Feb 18, 2025	Image RetrievalQuestion Answering	CodeCode Available	2
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems	Feb 16, 2025	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	2
SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding	Feb 15, 2025	Question AnsweringStreaming video understanding	CodeCode Available	2
KET-RAG: A Cost-Efficient Multi-Granular Indexing Framework for Graph-RAG	Feb 13, 2025	Knowledge GraphsLarge Language Model	CodeCode Available	2
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization	Feb 6, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
LUCY: Linguistic Understanding and Control Yielding Early Stage of Her	Jan 27, 2025	Question Answering	CodeCode Available	2
Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning	Jan 25, 2025	Answer GenerationMulti-agent Reinforcement Learning	CodeCode Available	2
Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models	Jan 25, 2025	AttributeContrastive Learning	CodeCode Available	2
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents	Jan 21, 2025	AttributeQuestion Answering	CodeCode Available	2

Show:10 25 50

← PrevPage 10 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified