Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1291–1300 of 10817 papers

Title	Date	Tasks	Status	Hype
Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering	Dec 12, 2024	feature selectionLanguage Modeling	—Unverified	0
Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine	Dec 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Doe-1: Closed-Loop Autonomous Driving with Large World Model	Dec 12, 2024	Autonomous DrivingDecision Making	CodeCode Available	2
A Multimodal Social Agent	Dec 11, 2024	Common Sense ReasoningDecision Making	—Unverified	0
DialogAgent: An Auto-engagement Agent for Code Question Answering Data Production	Dec 11, 2024	Code GenerationQuestion Answering	—Unverified	0
Can We Generate Visual Programs Without Prompting LLMs?	Dec 11, 2024	Data AugmentationQuestion Answering	—Unverified	0
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available	0
In-Context Learning with Topological Information for Knowledge Graph Completion	Dec 11, 2024	In-Context LearningInformation Retrieval	—Unverified	0
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions	Dec 11, 2024	BenchmarkingQuestion Answering	CodeCode Available	0
Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering	Dec 11, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	0

Show:10 25 50

← PrevPage 130 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified