Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3151–3160 of 10817 papers

Title	Date	Tasks	Status	Hype
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation	Feb 18, 2024	GPUQuestion Answering	CodeCode Available	1
LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation	Feb 18, 2024	Cross-Lingual TransferData Augmentation	CodeCode Available	1
Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents	Feb 18, 2024	Mathematical ReasoningMulti-hop Question Answering	CodeCode Available	1
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration	Feb 18, 2024	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
Benchmarking Knowledge Boundary for Large Language Models: A Different Perspective on Model Evaluation	Feb 18, 2024	BenchmarkingLanguage Modeling	CodeCode Available	1
Large Language Models Can Better Understand Knowledge Graphs Than We Thought	Feb 18, 2024	Knowledge GraphsPrompt Engineering	—Unverified	0
Question Answering Over Spatio-Temporal Knowledge Graph	Feb 18, 2024	Graph Question AnsweringKnowledge Graphs	—Unverified	0
ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models	Feb 18, 2024	Language ModellingQuestion Answering	CodeCode Available	3
CliqueParcel: An Approach For Batching LLM Prompts That Jointly Optimizes Efficiency And Faithfulness	Feb 17, 2024	Question AnsweringReading Comprehension	—Unverified	0
A Question Answering Based Pipeline for Comprehensive Chinese EHR Information Extraction	Feb 17, 2024	Question AnsweringTransfer Learning	—Unverified	0

Show:10 25 50

← PrevPage 316 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified