Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2901–2950 of 10817 papers

Title	Date	Tasks	Status
ER-RAG: Enhance RAG with ER-Based Unified Modeling of Heterogeneous Data Sources	Mar 2, 2025	Entity RetrievalKnowledge Graphs	—Unverified
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering	Mar 1, 2025	Continual LearningLanguage Modeling	—Unverified
AILS-NTUA at SemEval-2025 Task 8: Language-to-Code prompting and Error Fixing for Tabular Question Answering	Mar 1, 2025	DiversityNatural Language Queries	CodeCode Available
GlossGPT: GPT for Word Sense Disambiguation using Few-shot Chain-of-Thought Prompting	Mar 1, 2025	Question AnsweringWord Sense Disambiguation	CodeCode Available
PreMind: Multi-Agent Video Understanding for Advanced Indexing of Presentation-style Videos	Feb 28, 2025	Question AnsweringVideo Understanding	—Unverified
TempRetriever: Fusion-based Temporal Dense Passage Retrieval for Time-Sensitive Questions	Feb 28, 2025	Information RetrievalPassage Retrieval	—Unverified
MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models	Feb 28, 2025	Decision MakingHallucination	CodeCode Available
Fine-Grained Retrieval-Augmented Generation for Visual Question Answering	Feb 28, 2025	Question AnsweringRAG	—Unverified
WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval	Feb 28, 2025	Dataset GenerationOpen-Domain Question Answering	—Unverified
Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios	Feb 27, 2025	Data IntegrationQuestion Answering	—Unverified
Bisecting K-Means in RAG for Enhancing Question-Answering Tasks Performance in Telecommunications	Feb 27, 2025	ClusteringInformation Retrieval	—Unverified
M-LLM Based Video Frame Selection for Efficient Video Understanding	Feb 27, 2025	EgoSchemaLanguage Modeling	—Unverified
Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning	Feb 27, 2025	MathMedical Question Answering	—Unverified
From Retrieval to Generation: Comparing Different Approaches	Feb 27, 2025	Language ModelingLanguage Modelling	—Unverified
Few-Shot Multilingual Open-Domain QA from 5 Examples	Feb 27, 2025	Few-Shot LearningOpen-Domain Question Answering	CodeCode Available
Protecting multimodal large language models against misleading visualizations	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available
Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision	Feb 26, 2025	Audio SynthesisAutomatic Speech Recognition	—Unverified
MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering	Feb 26, 2025	BenchmarkingQuestion Answering	—Unverified
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning	Feb 26, 2025	Domain GeneralizationMedical Image Analysis	—Unverified
Winning Big with Small Models: Knowledge Distillation vs. Self-Training for Reducing Hallucination in QA Agents	Feb 26, 2025	HallucinationKnowledge Distillation	—Unverified
Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement	Feb 26, 2025	Anomaly DetectionNatural Language Queries	—Unverified
Talking to the brain: Using Large Language Models as Proxies to Model Brain Semantic Representation	Feb 26, 2025	Question Answeringvalid	—Unverified
END: Early Noise Dropping for Efficient and Effective Context Denoising	Feb 26, 2025	DenoisingIn-Context Learning	—Unverified
Uncertainty Quantification in Retrieval Augmented Question Answering	Feb 25, 2025	Question AnsweringRetrieval	CodeCode Available
Tip of the Tongue Query Elicitation for Simulated Evaluation	Feb 25, 2025	Community Question AnsweringQuestion Answering	CodeCode Available
Say Less, Mean More: Leveraging Pragmatics in Retrieval-Augmented Generation	Feb 25, 2025	ARCPassage Retrieval	—Unverified
Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference	Feb 25, 2025	Question AnsweringRAG	CodeCode Available
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA	Feb 25, 2025	Question AnsweringRetrieval	—Unverified
SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models	Feb 25, 2025	Continual LearningGSM8K	—Unverified
KiRAG: Knowledge-Driven Iterative Retriever for Enhancing Retrieval-Augmented Generation	Feb 25, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified
Evaluating the Effect of Retrieval Augmentation on Social Biases	Feb 24, 2025	Large Language ModelQuestion Answering	—Unverified
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding	Feb 24, 2025	Question AnsweringResponse Generation	—Unverified
MULTITAT: Benchmarking Multilingual Table-and-Text Question Answering	Feb 24, 2025	BenchmarkingQuestion Answering	CodeCode Available
MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts	Feb 24, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines	Feb 23, 2025	Answer GenerationLanguage Modeling	—Unverified
Tracking the Copyright of Large Vision-Language Models through Parameter Learning Adversarial Images	Feb 23, 2025	Adversarial AttackQuestion Answering	—Unverified
Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries	Feb 23, 2025	BenchmarkingImage Retrieval	CodeCode Available
MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering	Feb 23, 2025	Objectobject-detection	—Unverified
Wrong Answers Can Also Be Useful: PlausibleQA -- A Large-Scale QA Dataset with Answer Plausibility Scores	Feb 22, 2025	Distractor GenerationInformation Retrieval	CodeCode Available
Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models	Feb 22, 2025	HallucinationQuestion Answering	—Unverified
EPERM: An Evidence Path Enhanced Reasoning Model for Knowledge Graph Question and Answering	Feb 22, 2025	Graph Question AnsweringKnowledge Graphs	—Unverified
Echo: A Large Language Model with Temporal Episodic Memory	Feb 22, 2025	Language ModelingLanguage Modelling	—Unverified
MHQA: A Diverse, Knowledge Intensive Mental Health Question Answering Challenge for Language Models	Feb 21, 2025	BenchmarkingDiagnostic	—Unverified
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?	Feb 21, 2025	Question Answering	—Unverified
Chats-Grid: An Iterative Retrieval Q&A Optimization Scheme Leveraging Large Model and Retrieval Enhancement Generation in smart grid	Feb 21, 2025	Large Language ModelPrompt Engineering	—Unverified
Empowering LLMs with Logical Reasoning: A Comprehensive Survey	Feb 21, 2025	Logical ReasoningNegation	—Unverified
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba	Feb 21, 2025	image-classificationImage Classification	—Unverified
Improving Consistency in Large Language Models through Chain of Guidance	Feb 21, 2025	Question Answering	CodeCode Available
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified

Show:10 25 50

← PrevPage 59 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified