Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1149 papers

Title	Date	Tasks	Status
DOAD: Decoupled One Stage Action Detection Network	Apr 1, 2023	Action DetectionAction Recognition	—Unverified
DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering	Mar 20, 2025	Contrastive LearningQuestion Answering	—Unverified
Domain Adaptation of VLM for Soccer Video Understanding	May 20, 2025	Action ClassificationDomain Adaptation	—Unverified
DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action Segmentation	Jul 31, 2023	Action SegmentationHuman-Object Interaction Detection	—Unverified
Dr2Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning	Jan 1, 2024	object-detectionObject Detection	—Unverified
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model	Oct 2, 2023	Autonomous DrivingLanguage Modeling	—Unverified
DrVideo: Document Retrieval Based Long Video Understanding	Jun 18, 2024	document understandingEgoSchema	—Unverified
Dilated Temporal Relational Adversarial Network for Generic Video Summarization	Apr 30, 2018	Generative Adversarial NetworkVideo Summarization	—Unverified
DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM	Oct 3, 2024	Object TrackingVideo Understanding	—Unverified
DualX-VSR: Dual Axial SpatialTemporal Transformer for Real-World Video Super-Resolution without Motion Compensation	Jun 5, 2025	Motion CompensationOptical Flow Estimation	—Unverified
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs	Apr 23, 2025	Token ReductionVideo Understanding	—Unverified
Dynamic Appearance: A Video Representation for Action Recognition with Joint Training	Nov 23, 2022	Action RecognitionTemporal Action Localization	—Unverified
Dynamic Graph Modules for Modeling Object-Object Interactions in Activity Recognition	Dec 13, 2018	3D Action RecognitionAction Recognition	—Unverified
Dynamic Multistep Reasoning based on Video Scene Graph for Video Question Answering	Jul 1, 2022	Question AnsweringVideo Question Answering	—Unverified
DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding	Nov 19, 2024	Question AnsweringVideo Understanding	—Unverified
DynTok: Dynamic Compression of Visual Tokens for Efficient and Effective Video Understanding	Jun 4, 2025	MMEVideo MME	—Unverified
EAGLE: Egocentric AGgregated Language-video Engine	Sep 26, 2024	Action RecognitionActivity Recognition	—Unverified
Efficient Annotation and Learning for 3D Hand Pose Estimation: A Survey	Jun 5, 2022	3D Hand Pose EstimationDomain Adaptation	—Unverified
Efficient Modelling Across Time of Human Actions and Interactions	Oct 5, 2021	Action RecognitionVideo Understanding	—Unverified
Efficient Motion-Aware Video MLLM	Jan 1, 2025	Question AnsweringVideo Question Answering	—Unverified
Efficient Video Understanding via Layered Multi Frame-Rate Analysis	Nov 24, 2018	Autonomous DrivingVideo Understanding	—Unverified
EgoEnv: Human-centric environment representations from egocentric video	Jul 22, 2022	Video Understanding	—Unverified
Egocentric Video Task Translation	Dec 13, 2022	Multi-Task LearningTranslation	—Unverified
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding	Jan 5, 2023	Video Understanding	—Unverified
Egok360: A 360 Egocentric Kinetic Human Activity Video Dataset	Oct 15, 2020	Activity RecognitionEgocentric Activity Recognition	—Unverified
Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation	Jul 28, 2024	Video Understanding	—Unverified
ElasticPlay: Interactive Video Summarization with Dynamic Time Budgets	Aug 23, 2017	Video SummarizationVideo Understanding	—Unverified
Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding	Dec 31, 2024	Robot ManipulationScene Understanding	—Unverified
EmbRACE-3K: Embodied Reasoning and Action in Complex Environments	Jul 14, 2025	Scene UnderstandingSpatial Reasoning	—Unverified
Empowering Agentic Video Analytics Systems with Video Language Models	May 1, 2025	Knowledge GraphsRAG	—Unverified
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified
End-to-End Joint Semantic Segmentation of Actors and Actions in Video	Sep 1, 2018	Action RecognitionSegmentation	—Unverified
End-to-End Video Classification with Knowledge Graphs	Nov 6, 2017	BIG-bench Machine LearningClassification	—Unverified
Enhanced Motion-Text Alignment for Image-to-Video Transfer Learning	Jan 1, 2024	Transfer LearningVideo Understanding	—Unverified
Enhancing Long Video Understanding via Hierarchical Event-Based Memory	Sep 10, 2024	Video Understanding	—Unverified
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified
Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training	Mar 18, 2021	Video Understanding	—Unverified
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis	Feb 11, 2025	Action RecognitionVideo Description	—Unverified
Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model	Dec 6, 2024	EgoSchemaLanguage Modeling	—Unverified
EVA: An Embodied World Model for Future Video Anticipation	Oct 20, 2024	Language ModelingLanguage Modelling	—Unverified
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
EVQAScore: Efficient Video Question Answering Data Evaluation	Nov 11, 2024	Keyword ExtractionQuestion Answering	—Unverified
Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding	Mar 12, 2025	Instruction FollowingVideo Understanding	—Unverified
Egocentric and Exocentric Methods: A Short Survey	Oct 27, 2024	Action RecognitionSurvey	—Unverified
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	—Unverified
Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition	Jun 27, 2018	Action RecognitionTemporal Action Localization	—Unverified
Exploring Anchor-based Detection for Ego4D Natural Language Query	Aug 10, 2022	Video Understanding	—Unverified
Exploring Missing Modality in Multimodal Egocentric Datasets	Jan 21, 2024	Action RecognitionVideo Understanding	—Unverified
Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022	Nov 16, 2022	Human-Object Interaction DetectionObject	—Unverified
Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding	Jan 28, 2025	DecoderVideo Understanding	—Unverified

Show:10 25 50

← PrevPage 14 of 23Next →

No leaderboard results yet.