SOTAVerified|Agents Browse Leaderboard About Blog

Video Question Answering

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 460 papers

Title	Date	Tasks	Status	Hype
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder	Jun 28, 2025	Image SegmentationLarge Language Model	CodeCode Available	1
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs	Jun 27, 2025	Question AnsweringVideo Question Answering	CodeCode Available	2
How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering?	Jun 19, 2025	Multiple-choiceQuestion Answering	—Unverified	0
video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models	Jun 18, 2025	Audio captioningLarge Language Model	CodeCode Available	2
CogStream: Context-guided Streaming Video Question Answering	Jun 12, 2025	Question AnsweringVideo Question Answering	—Unverified	0
CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models	Jun 11, 2025	counterfactualDescriptive	CodeCode Available	2
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning	Jun 11, 2025	Action AnticipationLarge Language Model	CodeCode Available	7
Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning	Jun 9, 2025	Future predictionQuestion Answering	CodeCode Available	0
EgoVLM: Policy Optimization for Egocentric Video Understanding	Jun 3, 2025	EgoSchemaQuestion Answering	CodeCode Available	0
VUDG: A Dataset for Video Understanding Domain Generalization	May 30, 2025	Domain GeneralizationMultiple-choice	—Unverified	0

Show:10 25 50

← PrevPage 1 of 46Next →

All datasets NExT-QA ActivityNet-QA TVBench MVBench MSRVTT-QA STAR Benchmark OVBench AGQA 2.0 balanced How2QA iVQA MSRVTT-MC IntentQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Text + Text (no Multimodal Pretext Training)	Accuracy	40.2	—	Unverified
2	FrozenBiLM	Accuracy	39.6	—	Unverified
3	VideoCoCa	Accuracy	39	—	Unverified
4	Co-Tokenization	Accuracy	38.2	—	Unverified
5	Just Ask (fine-tune)	Accuracy	35.4	—	Unverified
6	FrozenBiLM (0-shot)	Accuracy	26.8	—	Unverified
7	Just Ask (0-shot)	Accuracy	12.2	—	Unverified
8	FrozenBiLM	Accuracy	0.27	—	Unverified