Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1771–1780 of 10817 papers

Title	Date	Tasks	Status	Hype
Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization	Oct 3, 2024	Anomaly DetectionAttribute	—Unverified	0
Distilling an End-to-End Voice Assistant Without Instruction Training Data	Oct 3, 2024	Question Answering	—Unverified	0
Reasoning Elicitation in Language Models via Counterfactual Feedback	Oct 2, 2024	counterfactualQuestion Answering	—Unverified	0
Enhancing Retrieval in QA Systems with Derived Feature Association	Oct 2, 2024	Question AnsweringRAG	CodeCode Available	0
CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations	Oct 2, 2024	BenchmarkingLong Form Question Answering	—Unverified	0
Question-guided Knowledge Graph Re-scoring and Injection for Knowledge Graph Question Answering	Oct 2, 2024	Graph Question AnsweringQuestion Answering	CodeCode Available	1
DLP-LoRA: Efficient Task-Specific LoRA Fusion with a Dynamic, Lightweight Plugin for Large Language Models	Oct 2, 2024	Multiple-choiceparameter-efficient fine-tuning	CodeCode Available	0
Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities	Oct 2, 2024	Question AnsweringVisual Question Answering	—Unverified	0
AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses	Oct 2, 2024	Question Answering	—Unverified	0
Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding	Oct 2, 2024	coreference-resolutionCoreference Resolution	—Unverified	0

Show:10 25 50

← PrevPage 178 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified