Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–2960 of 10817 papers

Title	Date	Tasks	Status	Hype
DESIRE-ME: Domain-Enhanced Supervised Information REtrieval using Mixture-of-Experts	Mar 20, 2024	Information RetrievalMixture-of-Experts	CodeCode Available	0
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified	0
PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation?	Mar 20, 2024	Abstractive Text SummarizationContinual Pretraining	—Unverified	0
Polaris: A Safety-focused LLM Constellation Architecture for Healthcare	Mar 20, 2024	Question Answering	—Unverified	0
WoLF: Wide-scope Large Language Model Framework for CXR Understanding	Mar 19, 2024	AnatomyInstruction Following	—Unverified	0
VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning	Mar 19, 2024	BenchmarkingImage Captioning	CodeCode Available	2
Towards Unsupervised Question Answering System with Multi-level Summarization for Legal Text	Mar 19, 2024	Binary ClassificationQuestion Answering	—Unverified	0
Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks	Mar 19, 2024	DecoderDialogue State Tracking	CodeCode Available	0
SEVEN: Pruning Transformer Model by Reserving Sentinels	Mar 19, 2024	image-classificationImage Classification	CodeCode Available	0
As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?	Mar 19, 2024	Adversarial AttackImage Captioning	—Unverified	0

Show:10 25 50

← PrevPage 296 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified