Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 1149 papers

Title	Date	Tasks	Status	Score
On the Pitfalls of Batch Normalization for End-to-End Video Learning: A Study on Surgical Workflow Analysis	Mar 15, 2022	Video Understanding	CodeCode Available	5
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding	Apr 20, 2025	Autonomous DrivingImage Captioning	CodeCode Available	5
NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification	Nov 12, 2018	Efficient Neural NetworkGeneral Classification	CodeCode Available	5
Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos	Feb 16, 2024	Decision MakingVideo Understanding	CodeCode Available	5
NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy Labels	Oct 13, 2021	Action ClassificationSelf-Supervised Learning	CodeCode Available	5
EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization	Jun 17, 2025	Multi-Instance RetrievalRetrieval	CodeCode Available	5
OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions	Nov 24, 2024	Action ClassificationAction Recognition	CodeCode Available	5
CARPe Posterum: A Convolutional Approach for Real-time Pedestrian Path Prediction	May 26, 2020	Autonomous VehiclesPrediction	CodeCode Available	5
Capturing Temporal Information in a Single Frame: Channel Sampling Strategies for Action Recognition	Jan 25, 2022	Action RecognitionOptical Flow Estimation	CodeCode Available	5
Are current long-term video understanding datasets long-term?	Aug 22, 2023	Action RecognitionVideo Understanding	CodeCode Available	5
Multi-Moments in Time: Learning and Interpreting Models for Multi-Action Video Understanding	Nov 1, 2019	Action DetectionAction Recognition	CodeCode Available	5
Enhancing Temporal Modeling of Video LLMs via Time Gating	Oct 8, 2024	MVBenchQuestion Answering	CodeCode Available	5
Multi-attention Networks for Temporal Localization of Video-level Labels	Nov 15, 2019	Action RecognitionTemporal Action Localization	CodeCode Available	5
MOFO: MOtion FOcused Self-Supervision for Video Understanding	Aug 23, 2023	Action ClassificationAction Recognition	CodeCode Available	5
Multimodal Dialogue State Tracking	Jun 16, 2022	Dialogue State TrackingVideo Understanding	CodeCode Available	5
End-to-End Learning of Motion Representation for Video Understanding	Apr 2, 2018	Action RecognitionOptical Flow Estimation	CodeCode Available	5
MINOTAUR: Multi-task Video Grounding From Multimodal Queries	Feb 16, 2023	Action DetectionSentence	CodeCode Available	5
MOD: A Deep Mixture Model with Online Knowledge Distillation for Large Scale Video Temporal Concept Localization	Oct 27, 2019	Knowledge DistillationVideo Understanding	CodeCode Available	5
B-VLLM: A Vision Large Language Model with Balanced Spatio-Temporal Tokens	Dec 13, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
EgoVLM: Policy Optimization for Egocentric Video Understanding	Jun 3, 2025	EgoSchemaQuestion Answering	CodeCode Available	5
METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding	Jun 3, 2025	Video Understanding	CodeCode Available	5
Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge 2022	Nov 18, 2022	Object State Change ClassificationTemporal Localization	CodeCode Available	5
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision	Jun 6, 2025	Video Understanding	CodeCode Available	5
LLaVA-OneVision: Easy Visual Task Transfer	Aug 6, 2024	3D Question Answering (3D-QA)	CodeCode Available	5
Long-Term Feature Banks for Detailed Video Understanding	Dec 12, 2018	Action ClassificationAction Recognition	CodeCode Available	5

Show:10 25 50

← PrevPage 21 of 46Next →

No leaderboard results yet.