Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1100 of 10817 papers

Title	Date	Tasks	Status	Hype
Question-to-Question Retrieval for Hallucination-Free Knowledge Access: An Approach for Wikipedia and Wikidata Question Answering	Jan 20, 2025	Answer GenerationComputational Efficiency	—Unverified	0
Few-shot Policy (de)composition in Conversational Question Answering	Jan 20, 2025	Conversational Question AnsweringQuestion Answering	—Unverified	0
InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models	Jan 19, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
A Collection of Question Answering Datasets for Norwegian	Jan 19, 2025	Question AnsweringWorld Knowledge	—Unverified	0
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data	Jan 19, 2025	Dialogue GenerationQuestion Answering	—Unverified	0
A Method for Multi-Hop Question Answering on Persian Knowledge Graph	Jan 18, 2025	Graph Question AnsweringInformation Retrieval	—Unverified	0
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No!	Jan 18, 2025	Multiple-choiceQuestion Answering	—Unverified	0
Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring	Jan 18, 2025	Dataset DistillationQuestion Answering	—Unverified	0
Tabular-TX: Theme-Explanation Structure-based Table Summarization via In-Context Learning	Jan 17, 2025	In-Context LearningQuestion Answering	—Unverified	0
Dialogue Benchmark Generation from Knowledge Graphs with Cost-Effective Retrieval-Augmented LLMs	Jan 17, 2025	Dialogue GenerationKnowledge Graphs	CodeCode Available	0
Passage Segmentation of Documents for Extractive Question Answering	Jan 17, 2025	ChunkingExtractive Question-Answering	—Unverified	0
Conversational Text Extraction with Large Language Models Using Retrieval-Augmented Systems	Jan 16, 2025	Question AnsweringRAG	—Unverified	0
A Simple Aerial Detection Baseline of Multimodal Language Models	Jan 16, 2025	object-detectionObject Detection	CodeCode Available	2
Algorithm for Semantic Network Generation from Texts of Low Resource Languages Such as Kiswahili	Jan 16, 2025	Question Answering	—Unverified	0
Perspective Transition of Large Language Models for Solving Subjective Tasks	Jan 16, 2025	In-Context LearningQuestion Answering	—Unverified	0
Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data	Jan 16, 2025	Data InteractionDescriptive	—Unverified	0
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified	0
To Retrieve or Not to Retrieve? Uncertainty Detection for Dynamic Retrieval Augmented Generation	Jan 16, 2025	Long Form Question AnsweringQuestion Answering	—Unverified	0
Embodied Scene Understanding for Vision Language Models via MetaVQA	Jan 15, 2025	Decision MakingQuestion Answering	—Unverified	0
Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning	Jan 15, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History	Jan 15, 2025	Multiple-choiceQuestion Answering	—Unverified	0
SteLLA: A Structured Grading System Using LLMs with RAG	Jan 15, 2025	Question AnsweringRAG	—Unverified	0
Admitting Ignorance Helps the Video Question Answering Models to Answer	Jan 15, 2025	Question AnsweringVideo Question Answering	—Unverified	0
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning	Jan 14, 2025	Logical ReasoningMulti-hop Question Answering	—Unverified	0
Talk to Right Specialists: Routing and Planning in Multi-agent System for Question Answering	Jan 14, 2025	Question AnsweringRAG	—Unverified	0
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding	Jan 14, 2025	Embodied Question AnsweringHallucination	CodeCode Available	4
SAR Strikes Back: A New Hope for RSVQA	Jan 14, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Advice for Diabetes Self-Management by ChatGPT Models: Challenges and Recommendations	Jan 14, 2025	ManagementMisinformation	—Unverified	0
ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems	Jan 14, 2025	Question AnsweringRAG	—Unverified	0
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings	Jan 14, 2025	BenchmarkingQuestion Answering	—Unverified	0
WebWalker: Benchmarking LLMs in Web Traversal	Jan 13, 2025	BenchmarkingOpen-Domain Question Answering	CodeCode Available	11
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified	0
MECD+: Unlocking Event-Level Causal Graph Discovery for Video Reasoning	Jan 13, 2025	Causal DiscoveryCausal Inference	CodeCode Available	1
Parallel Key-Value Cache Fusion for Position Invariant RAG	Jan 13, 2025	DecoderOpen-Domain Question Answering	—Unverified	0
ADKGD: Anomaly Detection in Knowledge Graphs with Dual-Channel Training	Jan 13, 2025	Anomaly DetectionKnowledge Graphs	CodeCode Available	0
TimeLogic: A Temporal Logic Benchmark for Video QA	Jan 13, 2025	2kAction Segmentation	—Unverified	0
Language Fusion for Parameter-Efficient Cross-lingual Transfer	Jan 12, 2025	Cross-Lingual TransferNatural Language Inference	CodeCode Available	0
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing	Jan 12, 2025	Image CaptioningLanguage Modeling	—Unverified	0
Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering	Jan 11, 2025	HallucinationQuestion Answering	CodeCode Available	0
First Token Probability Guided RAG for Telecom Question Answering	Jan 11, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
Finnish SQuAD: A Simple Approach to Machine Translation of Span Annotations	Jan 10, 2025	Machine TranslationQuestion Answering	—Unverified	0
PEACE: Empowering Geologic Map Holistic Understanding with MLLMs	Jan 10, 2025	Question Answering	—Unverified	0
Multi-Agent Collaboration Mechanisms: A Survey of LLMs	Jan 10, 2025	Question AnsweringSurvey	CodeCode Available	0
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available	0
Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks	Jan 10, 2025	Multi-hop Question AnsweringNatural Language Understanding	—Unverified	0
Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation	Jan 10, 2025	Knowledge DistillationQuestion Answering	—Unverified	0
How to Tune a Multilingual Encoder Model for Germanic Languages: A Study of PEFT, Full Fine-Tuning, and Language Adapters	Jan 10, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available	0
ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark	Jan 9, 2025	FairnessHallucination	CodeCode Available	1
Search-o1: Agentic Search-Enhanced Large Reasoning Models	Jan 9, 2025	Code Generation	CodeCode Available	5
LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding	Jan 9, 2025	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 22 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified