Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1221–1230 of 10817 papers

Title	Date	Tasks	Status	Hype
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization	Dec 19, 2024	Contrastive LearningDecision Making	CodeCode Available	1
Review-Then-Refine: A Dynamic Framework for Multi-Hop Question Answering with Temporal Adaptability	Dec 19, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering	Dec 19, 2024	Efficient ExplorationEmbodied Question Answering	—Unverified	0
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering	Dec 19, 2024	Contrastive LearningLanguage Modeling	CodeCode Available	0
Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs	Dec 19, 2024	Arithmetic ReasoningCode Generation	—Unverified	0
Query pipeline optimization for cancer patient question answering systems	Dec 19, 2024	HallucinationPassage Retrieval	—Unverified	0
CodeRepoQA: A Large-scale Benchmark for Software Engineering Question Answering	Dec 19, 2024	Question Answering	CodeCode Available	0
FedPIA -- Permuting and Integrating Adapters leveraging Wasserstein Barycenters for Finetuning Foundation Models in Multi-Modal Federated Learning	Dec 19, 2024	Federated Learningparameter-efficient fine-tuning	—Unverified	0
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available	0
Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models	Dec 19, 2024	Autonomous DrivingImage Captioning	CodeCode Available	0

Show:10 25 50

← PrevPage 123 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified