Video Question Answering

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 460 papers

Title	Date	Tasks	Status
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera	May 30, 2024	Question AnsweringVideo Question Answering	—Unverified
On Scaling Up a Multilingual Vision and Language Model	Jan 1, 2024	document understandingIn-Context Learning	—Unverified
Video Question Answering on Screencast Tutorials	Aug 2, 2020	Question AnsweringVideo Question Answering	—Unverified
Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks	Jun 28, 2019	Answer GenerationDecoder	—Unverified
Video Question Answering Using CLIP-Guided Visual-Text Attention	Mar 6, 2023	General KnowledgeQuestion Answering	—Unverified
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions	Nov 16, 2021	counterfactualDescriptive	—Unverified
Overview of the MedVidQA 2022 Shared Task on Medical Video Question-Answering	May 1, 2022	Question AnsweringVideo Classification	—Unverified
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge	May 11, 2025	Multimodal ReasoningQuestion Answering	—Unverified
Overview of TREC 2024 Medical Video Question Answering (MedVidQA) Track	Dec 15, 2024	Image CaptioningMedical Question Answering	—Unverified
Video Question Answering Using Language-Guided Deep Compressed-Domain Video Feature	Jan 1, 2021	Question AnsweringVideo Compression	—Unverified
Parameter-free Video Segmentation for Vision and Language Understanding	Mar 3, 2025	Question AnsweringVideo Question Answering	—Unverified
Video Question Answering via Attribute-Augmented Attention Network Learning	Jul 20, 2017	AttributeInformation Retrieval	—Unverified
Pegasus-v1 Technical Report	Apr 23, 2024	Language ModelingLanguage Modelling	—Unverified
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries	Dec 26, 2024	Question AnsweringVideo Question Answering	—Unverified
Contrastive Video-Language Learning with Fine-grained Frame Sampling	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified
Perception Test 2023: A Summary of the First Challenge And Outcome	Dec 20, 2023	BenchmarkingGrounded Video Question Answering	—Unverified
Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark	Nov 29, 2024	BenchmarkingGrounded Video Question Answering	—Unverified
Continuous Perception Benchmark	Aug 15, 2024	Question AnsweringVideo Question Answering	—Unverified
Composing Ensembles of Pre-trained Models via Iterative Consensus	Oct 20, 2022	Arithmetic ReasoningImage Generation	—Unverified
Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning	Jan 9, 2025	BenchmarkingQuestion Answering	—Unverified
PolySmart @ TRECVid 2024 Medical Video Question Answering	Dec 20, 2024	Question AnsweringRetrieval	—Unverified
Poze: Sports Technique Feedback under Data Constraints	Nov 8, 2024	Pose EstimationQuestion Answering	—Unverified
CogStream: Context-guided Streaming Video Question Answering	Jun 12, 2025	Question AnsweringVideo Question Answering	—Unverified
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering	Oct 12, 2024	Question AnsweringVideo Question Answering	—Unverified
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems	Sep 14, 2024	Question AnsweringVideo Question Answering	—Unverified
CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding	Jul 21, 2021	Question AnsweringSentence	—Unverified
Ranking Distillation for Open-Ended Video Question Answering with Insufficient Labels	Mar 21, 2024	Multi-Label ClassificationMUlTI-LABEL-ClASSIFICATION	—Unverified
Read, Look or Listen? What's Needed for Solving a Multimodal Dataset	Jul 6, 2023	Question AnsweringSpeaker Identification	—Unverified
ReasVQA: Advancing VideoQA with Imperfect Reasoning Process	Jan 23, 2025	Multi-Task LearningQuestion Answering	—Unverified
Recent Advances in Video Question Answering: A Review of Datasets and Methods	Jan 15, 2021	Information RetrievalMachine Translation	—Unverified
Redundancy-aware Transformer for Video Question Answering	Aug 7, 2023	Question AnsweringVideo Question Answering	—Unverified
Video Question Answering with Iterative Video-Text Co-Tokenization	Aug 1, 2022	Question AnsweringVideo Question Answering	—Unverified
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models	Apr 18, 2024	GSM8KMMLU	—Unverified
CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising	Dec 14, 2021	Cross-Modal RetrievalDecoder	—Unverified
Rethinking Multi-Modal Alignment in Video Question Answering from Feature and Sample Perspectives	Apr 25, 2022	Question AnsweringVideo Question Answering	—Unverified
Retrieval-based Video Language Model for Efficient Long Video Question Answering	Dec 8, 2023	Language ModelingLanguage Modelling	—Unverified
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models	Jun 15, 2023	cross-modal alignmentDomain Generalization	—Unverified
Co-attentional Transformers for Story-Based Video Understanding	Oct 27, 2020	Question AnsweringVideo Question Answering	—Unverified
Video Question Answering with Phrases via Semantic Roles	Apr 8, 2021	Question AnsweringVideo Question Answering	—Unverified
Video Question Generation via Cross-Modal Self-Attention Networks Learning	Jul 5, 2019	DiversityQuestion Answering	—Unverified
AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction	Nov 19, 2024	GPUQuestion Answering	—Unverified
Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models	Oct 10, 2024	Conformal PredictionLanguage Modeling	—Unverified
Zero-Shot Long-Form Video Understanding through Screenplay	Jun 25, 2024	FormQuestion Answering	—Unverified
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified
SEAL: Semantic Attention Learning for Long Video Representation	Dec 2, 2024	DiversityQuestion Answering	—Unverified
Seed1.5-VL Technical Report	May 11, 2025	Mixture-of-ExpertsMultimodal Reasoning	—Unverified
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization	Apr 16, 2025	HallucinationQuestion Answering	—Unverified
Self-ReS: Self-Reflection in Large Vision-Language Models for Long Video Understanding	Mar 26, 2025	GPUQuestion Answering	—Unverified
Self-supervised pre-training and contrastive representation learning for multiple-choice video QA	Sep 17, 2020	Auxiliary LearningContrastive Learning	—Unverified
Semantic-aware Dynamic Retrospective-Prospective Reasoning for Event-level Video Question Answering	May 14, 2023	Question AnsweringSemantic Role Labeling	—Unverified

Show:10 25 50

← PrevPage 6 of 10Next →

All datasets NExT-QA ActivityNet-QA TVBench MVBench MSRVTT-QA STAR Benchmark OVBench AGQA 2.0 balanced How2QA iVQA MSRVTT-MC IntentQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	LinVT-Qwen2-VL (7B)	Accuracy	85.5	—	Unverified
2	InternVL-2.5(8B)	Accuracy	85.5	—	Unverified
3	VideoLLaMA3(7B)	Accuracy	84.5	—	Unverified
4	PLM-8B	Accuracy	84.1	—	Unverified
5	BIMBA-LLaVA-Qwen2-7B	Accuracy	83.73	—	Unverified
6	PLM-3B	Accuracy	83.4	—	Unverified
7	LLaVA-Video	Accuracy	83.2	—	Unverified
8	NVILA(8B)	Accuracy	82.2	—	Unverified
9	Oryx-1.5(7B)	Accuracy	81.8	—	Unverified
10	Qwen2-VL(7B)	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 + CLIP-14 + CLIP-multilingual (Zero-Shot)	Accuracy	61.2	—	Unverified
2	GPT-2 + CLIP-32 (Zero-Shot)	Accuracy	58.4	—	Unverified
3	VideoCoCa	Accuracy	56.1	—	Unverified
4	Mirasol3B	Accuracy	51.13	—	Unverified
5	VAST	Accuracy	50.4	—	Unverified
6	COSA	Accuracy	49.9	—	Unverified
7	MA-LMM	Accuracy	49.8	—	Unverified
8	VideoChat2	Accuracy	49.1	—	Unverified
9	VALOR	Accuracy	48.6	—	Unverified
10	UMT-L (ViT-L/16)	Accuracy	47.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seed1.5-VL thinking	Average Accuracy	63.6	—	Unverified
2	PLM-8B	Average Accuracy	63.5	—	Unverified
3	Seed1.5-VL	Average Accuracy	61.5	—	Unverified
4	V-JEPA 2 ViT-g 8B	Average Accuracy	60.6	—	Unverified
5	PLM-3B	Average Accuracy	58.9	—	Unverified
6	RRPO	Average Accuracy	56.5	—	Unverified
7	Tarsier-34B	Average Accuracy	55.5	—	Unverified
8	Tarsier2-7B	Average Accuracy	54.7	—	Unverified
9	Qwen2-VL-72B	Average Accuracy	52.7	—	Unverified
10	IXC-2.5 7B	Average Accuracy	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinVT-Qwen2-VL (7B)	Avg.	69.3	—	Unverified
2	Tarsier (34B)	Avg.	67.6	—	Unverified
3	InternVideo2	Avg.	67.2	—	Unverified
4	LongVU (7B)	Avg.	66.9	—	Unverified
5	Oryx(34B)	Avg.	64.7	—	Unverified
6	VideoLLaMA2 (72B)	Avg.	62	—	Unverified
7	VideoChat-T (7B)	Avg.	59.9	—	Unverified
8	mPLUG-Owl3(7B)	Avg.	59.5	—	Unverified
9	PPLLaVA (7b)	Avg.	59.2	—	Unverified
10	VideoGPT+	Avg.	58.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	50.42	—	Unverified
2	VAST	Accuracy	50.1	—	Unverified
3	COSA	Accuracy	49.2	—	Unverified
4	VALOR	Accuracy	49.2	—	Unverified
5	MA-LMM	Accuracy	48.5	—	Unverified
6	mPLUG-2	Accuracy	48	—	Unverified
7	FrozenBiLM	Accuracy	47	—	Unverified
8	HBI	Accuracy	46.2	—	Unverified
9	EMCL-Net	Accuracy	45.8	—	Unverified
10	VindLU	Accuracy	44.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLAP (4 frames)	Average Accuracy	67.1	—	Unverified
2	LLaMA-VQA	Average Accuracy	65.4	—	Unverified
3	SeViLA	Average Accuracy	64.9	—	Unverified
4	InternVideo	Average Accuracy	58.7	—	Unverified
5	GF(sup)	Average Accuracy	53.94	—	Unverified
6	GF(uns)	Average Accuracy	53.86	—	Unverified
7	MIST	Average Accuracy	51.13	—	Unverified
8	Temp[ATP]	Average Accuracy	48.37	—	Unverified
9	AnyMAL-70B (0-shot)	Average Accuracy	48.2	—	Unverified
10	All-in-one	Average Accuracy	47.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seed1.5-VL	AVG	60	—	Unverified
2	VideoChat-Online (4B)	AVG	54.9	—	Unverified
3	Gemini-1.5-Flash	AVG	50.7	—	Unverified
4	Qwen2-VL (7B)	AVG	49.7	—	Unverified
5	LLaVA-OneVision (7B)	AVG	49.5	—	Unverified
6	InternVL2 (7B)	AVG	48.7	—	Unverified
7	InternVL2 (4B)	AVG	44.1	—	Unverified
8	LongVA (7B)	AVG	43.6	—	Unverified
9	LLaMA-VID (7B)	AVG	41.9	—	Unverified
10	MiniCPM-V 2.6 (7B)	AVG	39.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GF (sup) - Faster RCNN	Average Accuracy	55.08	—	Unverified
2	MIST - CLIP	Average Accuracy	54.39	—	Unverified
3	GF (uns) - S3D	Average Accuracy	53.33	—	Unverified
4	SViTT	Average Accuracy	52.7	—	Unverified
5	MIST - AIO	Average Accuracy	50.96	—	Unverified
6	SHG-VQA (trained from scratch)	Average Accuracy	49.2	—	Unverified
7	AIO - ViT	Average Accuracy	48.59	—	Unverified
8	MMTF	Average Accuracy	44.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text + Text (no Multimodal Pretext Training)	Accuracy	93.2	—	Unverified
2	FrozenBiLM	Accuracy	86.7	—	Unverified
3	Just Ask	Accuracy	84.4	—	Unverified
4	SeViLA	Accuracy	83.7	—	Unverified
5	Hero w/ pre-training	Accuracy	77.75	—	Unverified
6	ATP	Accuracy	65.1	—	Unverified
7	FrozenBiLM (0-shot)	Accuracy	58.4	—	Unverified
8	Just Ask (0-shot)	Accuracy	51.1	—	Unverified