Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1341–1350 of 10817 papers

Title	Date	Tasks	Status	Hype
Domain-specific Question Answering with Hybrid Search	Dec 4, 2024	Question AnsweringRetrieval	—Unverified	0
RedStone: Curating General, Code, Math, and QA Data for Large Language Models	Dec 4, 2024	Domain AdaptationMath	—Unverified	0
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges	Dec 4, 2024	Code GenerationImage Comprehension	—Unverified	0
Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset	Dec 3, 2024	Knowledge GraphsLanguage Modeling	—Unverified	0
MLD-EA: Check and Complete Narrative Coherence by Introducing Emotions and Actions	Dec 3, 2024	Question AnsweringStory Generation	—Unverified	0
An Evolutionary Large Language Model for Hallucination Mitigation	Dec 3, 2024	Dataset GenerationHallucination	—Unverified	0
Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning	Dec 3, 2024	Causal Language ModelingLanguage Modeling	—Unverified	0
GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot	Dec 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	7
Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey	Dec 3, 2024	Cross-Modal RetrievalNatural Language Understanding	—Unverified	0
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image	Dec 3, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0

Show:10 25 50

← PrevPage 135 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified