SOTAVerified|Agents Browse Leaderboard About

Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 676–700 of 1149 papers

Title	Date	Tasks	Status
Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation	Jul 28, 2024	Video Understanding	—Unverified
ElasticPlay: Interactive Video Summarization with Dynamic Time Budgets	Aug 23, 2017	Video SummarizationVideo Understanding	—Unverified
Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding	Dec 31, 2024	Robot ManipulationScene Understanding	—Unverified
EmbRACE-3K: Embodied Reasoning and Action in Complex Environments	Jul 14, 2025	Scene UnderstandingSpatial Reasoning	—Unverified
Empowering Agentic Video Analytics Systems with Video Language Models	May 1, 2025	Knowledge GraphsRAG	—Unverified
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified
End-to-End Joint Semantic Segmentation of Actors and Actions in Video	Sep 1, 2018	Action RecognitionSegmentation	—Unverified
End-to-End Video Classification with Knowledge Graphs	Nov 6, 2017	BIG-bench Machine LearningClassification	—Unverified
Enhanced Motion-Text Alignment for Image-to-Video Transfer Learning	Jan 1, 2024	Transfer LearningVideo Understanding	—Unverified
Enhancing Long Video Understanding via Hierarchical Event-Based Memory	Sep 10, 2024	Video Understanding	—Unverified
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified
Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training	Mar 18, 2021	Video Understanding	—Unverified
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis	Feb 11, 2025	Action RecognitionVideo Description	—Unverified
Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model	Dec 6, 2024	EgoSchemaLanguage Modeling	—Unverified
EVA: An Embodied World Model for Future Video Anticipation	Oct 20, 2024	Language ModelingLanguage Modelling	—Unverified
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
EVQAScore: Efficient Video Question Answering Data Evaluation	Nov 11, 2024	Keyword ExtractionQuestion Answering	—Unverified
Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding	Mar 12, 2025	Instruction FollowingVideo Understanding	—Unverified
Egocentric and Exocentric Methods: A Short Survey	Oct 27, 2024	Action RecognitionSurvey	—Unverified
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	—Unverified
Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition	Jun 27, 2018	Action RecognitionTemporal Action Localization	—Unverified
Exploring Anchor-based Detection for Ego4D Natural Language Query	Aug 10, 2022	Video Understanding	—Unverified
Exploring Missing Modality in Multimodal Egocentric Datasets	Jan 21, 2024	Action RecognitionVideo Understanding	—Unverified
Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022	Nov 16, 2022	Human-Object Interaction DetectionObject	—Unverified
Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding	Jan 28, 2025	DecoderVideo Understanding	—Unverified

Show:10 25 50

← PrevPage 28 of 46Next →

No leaderboard results yet.