Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1531–1540 of 10817 papers

Title	Date	Tasks	Status
Symbolic Graph Inference for Compound Scene Understanding	Oct 30, 2024	Question AnsweringScene Understanding	—Unverified
BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference	Oct 30, 2024	Computational EfficiencyQuestion Answering	CodeCode Available
Danoliteracy of Generative, Large Language Models	Oct 30, 2024	Question Answering	—Unverified
Dynamic Strategy Planning for Efficient Question Answering with Large Language Models	Oct 30, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset	Oct 30, 2024	Question AnsweringVisual Question Answering	—Unverified
NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering	Oct 29, 2024	Question Answering	—Unverified
RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts	Oct 29, 2024	Chart Question AnsweringQuestion Answering	—Unverified
GRADE: Quantifying Sample Diversity in Text-to-Image Models	Oct 29, 2024	AttributeDiversity	—Unverified
AAAR-1.0: Assessing AI's Potential to Assist Research	Oct 29, 2024	Question Answering	—Unverified
Synthetic Data Generation with Large Language Models for Personalized Community Question Answering	Oct 29, 2024	Community Question AnsweringInformation Retrieval	CodeCode Available

Show:10 25 50

← PrevPage 154 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified