Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3126–3150 of 10817 papers

Title	Date	Tasks	Status
SAR Strikes Back: A New Hope for RSVQA	Jan 14, 2025	Question AnsweringVisual Question Answering	—Unverified
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings	Jan 14, 2025	BenchmarkingQuestion Answering	—Unverified
ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems	Jan 14, 2025	Question AnsweringRAG	—Unverified
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified
Parallel Key-Value Cache Fusion for Position Invariant RAG	Jan 13, 2025	DecoderOpen-Domain Question Answering	—Unverified
ADKGD: Anomaly Detection in Knowledge Graphs with Dual-Channel Training	Jan 13, 2025	Anomaly DetectionKnowledge Graphs	CodeCode Available
TimeLogic: A Temporal Logic Benchmark for Video QA	Jan 13, 2025	2kAction Segmentation	—Unverified
Language Fusion for Parameter-Efficient Cross-lingual Transfer	Jan 12, 2025	Cross-Lingual TransferNatural Language Inference	CodeCode Available
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing	Jan 12, 2025	Image CaptioningLanguage Modeling	—Unverified
Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering	Jan 11, 2025	HallucinationQuestion Answering	CodeCode Available
First Token Probability Guided RAG for Telecom Question Answering	Jan 11, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
How to Tune a Multilingual Encoder Model for Germanic Languages: A Study of PEFT, Full Fine-Tuning, and Language Adapters	Jan 10, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available
Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation	Jan 10, 2025	Knowledge DistillationQuestion Answering	—Unverified
Finnish SQuAD: A Simple Approach to Machine Translation of Span Annotations	Jan 10, 2025	Machine TranslationQuestion Answering	—Unverified
Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks	Jan 10, 2025	Multi-hop Question AnsweringNatural Language Understanding	—Unverified
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available
Multi-Agent Collaboration Mechanisms: A Survey of LLMs	Jan 10, 2025	Question AnsweringSurvey	CodeCode Available
PEACE: Empowering Geologic Map Holistic Understanding with MLLMs	Jan 10, 2025	Question Answering	—Unverified
SUGAR: Leveraging Contextual Confidence for Smarter Retrieval	Jan 9, 2025	Question AnsweringRAG	—Unverified
LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding	Jan 9, 2025	Language ModelingLanguage Modelling	—Unverified
Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning	Jan 9, 2025	BenchmarkingQuestion Answering	—Unverified
Knowledge Retrieval Based on Generative AI	Jan 8, 2025	Large Language ModelMultiple-choice	—Unverified
TimelineKGQA: A Comprehensive Question-Answer Pair Generator for Temporal Knowledge Graphs	Jan 8, 2025	Knowledge GraphsQuestion Answering	CodeCode Available
Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks	Jan 8, 2025	Question AnsweringUncertainty Quantification	—Unverified
Feedback-Driven Vision-Language Alignment with Minimal Human Supervision	Jan 8, 2025	HallucinationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 126 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified