Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3011–3020 of 10817 papers

Title	Date	Tasks	Status	Hype
Calibrating Large Language Models Using Their Generations Only	Mar 9, 2024	Question AnsweringText Generation	CodeCode Available	1
MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge Graphs	Mar 9, 2024	Conversational Question AnsweringDialogue Generation	—Unverified	0
Debiasing Multimodal Large Language Models	Mar 8, 2024	FairnessQuestion Answering	CodeCode Available	2
ChatASU: Evoking LLM's Reflexion to Truly Understand Aspect Sentiment in Dialogues	Mar 8, 2024	HallucinationQuestion Answering	—Unverified	0
Can't Remember Details in Long Documents? You Need Some R&R	Mar 8, 2024	Question Answering	CodeCode Available	1
Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering	Mar 8, 2024	Answer GenerationOpen-Domain Question Answering	CodeCode Available	1
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought	Mar 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context	Mar 8, 2024	1 Image, 2*2 StitchingCode Generation	CodeCode Available	3
Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering	Mar 7, 2024	Information RetrievalLanguage Modelling	CodeCode Available	0
QAQ: Quality Adaptive Quantization for LLM KV Cache	Mar 7, 2024	QuantizationQuestion Answering	CodeCode Available	2

Show:10 25 50

← PrevPage 302 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified