Video Question Answering

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 460 papers

Title	Date	Tasks	Status
Learning Question-Guided Video Representation for Multi-Turn Video Question Answering	Jul 31, 2019	NavigateQuestion Answering	—Unverified
Adversarial Multimodal Network for Movie Question Answering	Jun 24, 2019	Question AnsweringVideo Question Answering	—Unverified
Advancing Egocentric Video Question Answering with Multimodal Large Language Models	Apr 6, 2025	Object RecognitionQuestion Answering	—Unverified
Neural Reasoning, Fast and Slow, for Video Question Answering	Jul 10, 2019	Natural QuestionsQuestion Answering	—Unverified
Learning to Rehearse in Long Sequence Memorization	Jun 2, 2021	MemorizationQuestion Answering	—Unverified
Learning Trajectory-Word Alignments for Video-Language Tasks	Jan 5, 2023	Question AnsweringRetrieval	—Unverified
Leveraging Static Relationships for Intra-Type and Inter-Type Message Passing in Video Question Answering	Apr 3, 2025	Question AnsweringVideo Question Answering	—Unverified
Leveraging LLMs with Iterative Loop Structure for Enhanced Social Intelligence in Video Question Answering	Mar 27, 2025	Emotion RecognitionQuestion Answering	—Unverified
Leveraging Video Descriptions to Learn Video Question Answering	Nov 12, 2016	Question AnsweringVideo Question Answering	—Unverified
VideoLLM-online: Online Video Large Language Model for Streaming Video	Jun 17, 2024	GPULanguage Modeling	—Unverified
EVQAScore: Efficient Video Question Answering Data Evaluation	Nov 11, 2024	Keyword ExtractionQuestion Answering	—Unverified
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer	Nov 28, 2023	Language ModelingLanguage Modelling	—Unverified
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling	Oct 21, 2022	Language ModelingLanguage Modelling	—Unverified
LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval	May 21, 2025	Autonomous DrivingQuestion Answering	—Unverified
LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video Question Answering	Nov 29, 2021	DiversityQuestion Answering	—Unverified
Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding of Dynamic Environments	Jan 1, 2021	Question AnsweringVideo Question Answering	—Unverified
ENTER: Event Based Interpretable Reasoning for VideoQA	Jan 24, 2025	Code GenerationEgoSchema	—Unverified
Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation	Jan 1, 2025	Language ModelingLanguage Modelling	—Unverified
LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning	Aug 15, 2024	Answer GenerationQuestion-Answer-Generation	—Unverified
LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs	Feb 21, 2024	Question AnsweringVideo Question Answering	—Unverified
Locate before Answering: Answer Guided Question Localization for Video Question Answering	Oct 5, 2022	Question AnsweringVideo Question Answering	—Unverified
Admitting Ignorance Helps the Video Question Answering Models to Answer	Jan 15, 2025	Question AnsweringVideo Question Answering	—Unverified
Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding	Mar 17, 2025	AttributeMME	—Unverified
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified
End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling	Jul 21, 2024	Question AnsweringVideo Question Answering	—Unverified
LongVILA: Scaling Long-Context Visual Language Models for Long Videos	Aug 19, 2024	Video CaptioningVideo Question Answering	—Unverified
Efficient Motion-Aware Video MLLM	Jan 1, 2025	Question AnsweringVideo Question Answering	—Unverified
VUDG: A Dataset for Video Understanding Domain Generalization	May 30, 2025	Domain GeneralizationMultiple-choice	—Unverified
MarioQA: Answering Questions by Watching Gameplay Videos	Dec 6, 2016	Question AnsweringVideo Question Answering	—Unverified
Measuring Compositional Consistency for Video Question Answering	Apr 14, 2022	Question AnsweringVideo Question Answering	—Unverified
VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation	May 4, 2023	DecoderQuestion Answering	—Unverified
VideoOrion: Tokenizing Object Dynamics in Videos	Nov 25, 2024	Language ModelingLanguage Modelling	—Unverified
Dynamic Multistep Reasoning based on Video Scene Graph for Video Question Answering	Jul 1, 2022	Question AnsweringVideo Question Answering	—Unverified
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities	Nov 9, 2023	Action ClassificationAudio Classification	—Unverified
AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction	Jan 1, 2025	GPUQuestion Answering	—Unverified
M-LLM Based Video Frame Selection for Efficient Video Understanding	Feb 27, 2025	EgoSchemaLanguage Modeling	—Unverified
MMTF: Multi-Modal Temporal Fusion for Commonsense Video Question Answering	Oct 6, 2023	counterfactualQuestion Answering	—Unverified
Modality Alignment between Deep Representations for Effective Video-and-Language Learning	Jun 1, 2022	Question AnsweringVideo Captioning	—Unverified
Modality Shifting Attention Network for Multi-modal Video Question Answering	Jul 4, 2020	Question AnsweringTemporal Localization	—Unverified
Modeling Semantic Composition with Syntactic Hypergraph for Video Question Answering	May 13, 2022	Question AnsweringSemantic Composition	—Unverified
Modular Blended Attention Network for Video Question Answering	Nov 2, 2023	Question AnsweringVideo Question Answering	—Unverified
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering	Apr 9, 2024	EgoSchemaMultiple-choice	—Unverified
Motion-Appearance Co-Memory Networks for Video Question Answering	Mar 29, 2018	Question AnsweringVideo Question Answering	—Unverified
Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering	Aug 11, 2021	Language ModelingLanguage Modelling	—Unverified
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified
Distraction-free Embeddings for Robust VQA	Aug 31, 2023	Question AnsweringVideo Question Answering	—Unverified
Movie Question Answering: Remembering the Textual Cues for Layered Visual Contents	Apr 25, 2018	Question AnsweringVideo Question Answering	—Unverified
MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding	Dec 8, 2023	FormQuestion Answering	—Unverified
Discovering the Real Association: Multimodal Causal Reasoning in Video Question Answering	Jan 1, 2023	Question AnsweringVideo Question Answering	—Unverified

Show:10 25 50

← PrevPage 9 of 10Next →

All datasets NExT-QA ActivityNet-QA TVBench MVBench MSRVTT-QA STAR Benchmark OVBench AGQA 2.0 balanced How2QA iVQA MSRVTT-MC IntentQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	LinVT-Qwen2-VL (7B)	Accuracy	85.5	—	Unverified
2	InternVL-2.5(8B)	Accuracy	85.5	—	Unverified
3	VideoLLaMA3(7B)	Accuracy	84.5	—	Unverified
4	PLM-8B	Accuracy	84.1	—	Unverified
5	BIMBA-LLaVA-Qwen2-7B	Accuracy	83.73	—	Unverified
6	PLM-3B	Accuracy	83.4	—	Unverified
7	LLaVA-Video	Accuracy	83.2	—	Unverified
8	NVILA(8B)	Accuracy	82.2	—	Unverified
9	Oryx-1.5(7B)	Accuracy	81.8	—	Unverified
10	Qwen2-VL(7B)	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 + CLIP-14 + CLIP-multilingual (Zero-Shot)	Accuracy	61.2	—	Unverified
2	GPT-2 + CLIP-32 (Zero-Shot)	Accuracy	58.4	—	Unverified
3	VideoCoCa	Accuracy	56.1	—	Unverified
4	Mirasol3B	Accuracy	51.13	—	Unverified
5	VAST	Accuracy	50.4	—	Unverified
6	COSA	Accuracy	49.9	—	Unverified
7	MA-LMM	Accuracy	49.8	—	Unverified
8	VideoChat2	Accuracy	49.1	—	Unverified
9	VALOR	Accuracy	48.6	—	Unverified
10	UMT-L (ViT-L/16)	Accuracy	47.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seed1.5-VL thinking	Average Accuracy	63.6	—	Unverified
2	PLM-8B	Average Accuracy	63.5	—	Unverified
3	Seed1.5-VL	Average Accuracy	61.5	—	Unverified
4	V-JEPA 2 ViT-g 8B	Average Accuracy	60.6	—	Unverified
5	PLM-3B	Average Accuracy	58.9	—	Unverified
6	RRPO	Average Accuracy	56.5	—	Unverified
7	Tarsier-34B	Average Accuracy	55.5	—	Unverified
8	Tarsier2-7B	Average Accuracy	54.7	—	Unverified
9	Qwen2-VL-72B	Average Accuracy	52.7	—	Unverified
10	IXC-2.5 7B	Average Accuracy	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinVT-Qwen2-VL (7B)	Avg.	69.3	—	Unverified
2	Tarsier (34B)	Avg.	67.6	—	Unverified
3	InternVideo2	Avg.	67.2	—	Unverified
4	LongVU (7B)	Avg.	66.9	—	Unverified
5	Oryx(34B)	Avg.	64.7	—	Unverified
6	VideoLLaMA2 (72B)	Avg.	62	—	Unverified
7	VideoChat-T (7B)	Avg.	59.9	—	Unverified
8	mPLUG-Owl3(7B)	Avg.	59.5	—	Unverified
9	PPLLaVA (7b)	Avg.	59.2	—	Unverified
10	VideoGPT+	Avg.	58.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	50.42	—	Unverified
2	VAST	Accuracy	50.1	—	Unverified
3	COSA	Accuracy	49.2	—	Unverified
4	VALOR	Accuracy	49.2	—	Unverified
5	MA-LMM	Accuracy	48.5	—	Unverified
6	mPLUG-2	Accuracy	48	—	Unverified
7	FrozenBiLM	Accuracy	47	—	Unverified
8	HBI	Accuracy	46.2	—	Unverified
9	EMCL-Net	Accuracy	45.8	—	Unverified
10	VindLU	Accuracy	44.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VLAP (4 frames)	Average Accuracy	67.1	—	Unverified
2	LLaMA-VQA	Average Accuracy	65.4	—	Unverified
3	SeViLA	Average Accuracy	64.9	—	Unverified
4	InternVideo	Average Accuracy	58.7	—	Unverified
5	GF(sup)	Average Accuracy	53.94	—	Unverified
6	GF(uns)	Average Accuracy	53.86	—	Unverified
7	MIST	Average Accuracy	51.13	—	Unverified
8	Temp[ATP]	Average Accuracy	48.37	—	Unverified
9	AnyMAL-70B (0-shot)	Average Accuracy	48.2	—	Unverified
10	All-in-one	Average Accuracy	47.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seed1.5-VL	AVG	60	—	Unverified
2	VideoChat-Online (4B)	AVG	54.9	—	Unverified
3	Gemini-1.5-Flash	AVG	50.7	—	Unverified
4	Qwen2-VL (7B)	AVG	49.7	—	Unverified
5	LLaVA-OneVision (7B)	AVG	49.5	—	Unverified
6	InternVL2 (7B)	AVG	48.7	—	Unverified
7	InternVL2 (4B)	AVG	44.1	—	Unverified
8	LongVA (7B)	AVG	43.6	—	Unverified
9	LLaMA-VID (7B)	AVG	41.9	—	Unverified
10	MiniCPM-V 2.6 (7B)	AVG	39.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GF (sup) - Faster RCNN	Average Accuracy	55.08	—	Unverified
2	MIST - CLIP	Average Accuracy	54.39	—	Unverified
3	GF (uns) - S3D	Average Accuracy	53.33	—	Unverified
4	SViTT	Average Accuracy	52.7	—	Unverified
5	MIST - AIO	Average Accuracy	50.96	—	Unverified
6	SHG-VQA (trained from scratch)	Average Accuracy	49.2	—	Unverified
7	AIO - ViT	Average Accuracy	48.59	—	Unverified
8	MMTF	Average Accuracy	44.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text + Text (no Multimodal Pretext Training)	Accuracy	93.2	—	Unverified
2	FrozenBiLM	Accuracy	86.7	—	Unverified
3	Just Ask	Accuracy	84.4	—	Unverified
4	SeViLA	Accuracy	83.7	—	Unverified
5	Hero w/ pre-training	Accuracy	77.75	—	Unverified
6	ATP	Accuracy	65.1	—	Unverified
7	FrozenBiLM (0-shot)	Accuracy	58.4	—	Unverified
8	Just Ask (0-shot)	Accuracy	51.1	—	Unverified