Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2926–2950 of 10817 papers

Title	Date	Tasks	Status
Say Less, Mean More: Leveraging Pragmatics in Retrieval-Augmented Generation	Feb 25, 2025	ARCPassage Retrieval	—Unverified
Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference	Feb 25, 2025	Question AnsweringRAG	CodeCode Available
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA	Feb 25, 2025	Question AnsweringRetrieval	—Unverified
SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models	Feb 25, 2025	Continual LearningGSM8K	—Unverified
KiRAG: Knowledge-Driven Iterative Retriever for Enhancing Retrieval-Augmented Generation	Feb 25, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified
Evaluating the Effect of Retrieval Augmentation on Social Biases	Feb 24, 2025	Large Language ModelQuestion Answering	—Unverified
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding	Feb 24, 2025	Question AnsweringResponse Generation	—Unverified
MULTITAT: Benchmarking Multilingual Table-and-Text Question Answering	Feb 24, 2025	BenchmarkingQuestion Answering	CodeCode Available
MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts	Feb 24, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines	Feb 23, 2025	Answer GenerationLanguage Modeling	—Unverified
Tracking the Copyright of Large Vision-Language Models through Parameter Learning Adversarial Images	Feb 23, 2025	Adversarial AttackQuestion Answering	—Unverified
Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries	Feb 23, 2025	BenchmarkingImage Retrieval	CodeCode Available
MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering	Feb 23, 2025	Objectobject-detection	—Unverified
Wrong Answers Can Also Be Useful: PlausibleQA -- A Large-Scale QA Dataset with Answer Plausibility Scores	Feb 22, 2025	Distractor GenerationInformation Retrieval	CodeCode Available
Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models	Feb 22, 2025	HallucinationQuestion Answering	—Unverified
EPERM: An Evidence Path Enhanced Reasoning Model for Knowledge Graph Question and Answering	Feb 22, 2025	Graph Question AnsweringKnowledge Graphs	—Unverified
Echo: A Large Language Model with Temporal Episodic Memory	Feb 22, 2025	Language ModelingLanguage Modelling	—Unverified
MHQA: A Diverse, Knowledge Intensive Mental Health Question Answering Challenge for Language Models	Feb 21, 2025	BenchmarkingDiagnostic	—Unverified
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?	Feb 21, 2025	Question Answering	—Unverified
Chats-Grid: An Iterative Retrieval Q&A Optimization Scheme Leveraging Large Model and Retrieval Enhancement Generation in smart grid	Feb 21, 2025	Large Language ModelPrompt Engineering	—Unverified
Empowering LLMs with Logical Reasoning: A Comprehensive Survey	Feb 21, 2025	Logical ReasoningNegation	—Unverified
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba	Feb 21, 2025	image-classificationImage Classification	—Unverified
Improving Consistency in Large Language Models through Chain of Guidance	Feb 21, 2025	Question Answering	CodeCode Available
Directional Gradient Projection for Robust Fine-Tuning of Foundation Models	Feb 21, 2025	image-classificationImage Classification	—Unverified

Show:10 25 50

← PrevPage 118 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified