Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2126–2150 of 10817 papers

Title	Date	Tasks	Status	Hype
Causal Understanding For Video Question Answering	Jul 23, 2024	Question AnsweringVideo Question Answering	—Unverified	0
Knowledge Models for Cancer Clinical Practice Guidelines : Construction, Management and Usage in Question Answering	Jul 23, 2024	ManagementQuestion Answering	—Unverified	0
Structure-aware Domain Knowledge Injection for Large Language Models	Jul 23, 2024	Question Answering	CodeCode Available	1
Learning Trimodal Relation for AVQA with Missing Modality	Jul 23, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1
Enhancing LLM's Cognition via Structurization	Jul 23, 2024	HallucinationHallucination Evaluation	CodeCode Available	1
Shared Imagination: LLMs Hallucinate Alike	Jul 23, 2024	HallucinationQuestion Answering	—Unverified	0
Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models	Jul 23, 2024	Computational EfficiencyImage Captioning	—Unverified	0
Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models	Jul 23, 2024	Language ModellingLarge Language Model	—Unverified	0
KaPQA: Knowledge-Augmented Product Question-Answering	Jul 22, 2024	Question AnsweringRAG	—Unverified	0
Enhancing Temporal Understanding in LLMs for Semi-structured Tables	Jul 22, 2024	Question Answering	—Unverified	0
RadioRAG: Factual large language models for enhanced diagnostics in radiology using online retrieval augmented generation	Jul 22, 2024	DiagnosticQuestion Answering	CodeCode Available	0
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning	Jul 22, 2024	BenchmarkingHallucination	CodeCode Available	1
Odyssey: Empowering Minecraft Agents with Open-World Skills	Jul 22, 2024	Language ModellingLarge Language Model	CodeCode Available	3
Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models	Jul 22, 2024	DisentanglementQuestion Answering	CodeCode Available	0
LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding	Jul 22, 2024	Multiple-choiceQuestion Answering	CodeCode Available	2
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models	Jul 22, 2024	Question AnsweringRepresentation Learning	—Unverified	0
OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context	Jul 22, 2024	Extractive Question-AnsweringLanguage Modelling	—Unverified	0
NV-Retriever: Improving text embedding models with effective hard-negative mining	Jul 22, 2024	Contrastive LearningInformation Retrieval	—Unverified	0
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity	Jul 22, 2024	DiversityMultiple-choice	CodeCode Available	2
Retrieval with Learned Similarities	Jul 22, 2024	Question AnsweringRecommendation Systems	CodeCode Available	2
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA	Jul 22, 2024	BenchmarkingContrastive Learning	CodeCode Available	0
Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis	Jul 21, 2024	Question AnsweringText Generation	—Unverified	0
End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling	Jul 21, 2024	Question AnsweringVideo Question Answering	—Unverified	0
Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions	Jul 21, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data	Jul 20, 2024	Language ModellingMachine Translation	—Unverified	0

Show:10 25 50

← PrevPage 86 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified