SOTAVerified|Agents Browse Leaderboard About

Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1121–1130 of 1149 papers

Title	Date	Tasks	Status	Hype
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models	Jun 22, 2024	DiversityLanguage Modeling	CodeCode Available	0
X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer	Dec 12, 2023	Action RecognitionAction Segmentation	CodeCode Available	0
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding	Apr 20, 2025	Autonomous DrivingImage Captioning	CodeCode Available	0
Diagnosing Error in Temporal Action Detectors	Jul 27, 2018	Action LocalizationDiagnostic	CodeCode Available	0
Multi-attention Networks for Temporal Localization of Video-level Labels	Nov 15, 2019	Action RecognitionTemporal Action Localization	CodeCode Available	0
MOFO: MOtion FOcused Self-Supervision for Video Understanding	Aug 23, 2023	Action ClassificationAction Recognition	CodeCode Available	0
MOD: A Deep Mixture Model with Online Knowledge Distillation for Large Scale Video Temporal Concept Localization	Oct 27, 2019	Knowledge DistillationVideo Understanding	CodeCode Available	0
Detection-Fusion for Knowledge Graph Extraction from Videos	Dec 30, 2024	Knowledge GraphsLanguage Modeling	CodeCode Available	0
Vamos: Versatile Action Models for Video Understanding	Nov 22, 2023	EgoSchemaHard Attention	CodeCode Available	0
Are current long-term video understanding datasets long-term?	Aug 22, 2023	Action RecognitionVideo Understanding	CodeCode Available	0

Show:10 25 50

← PrevPage 113 of 115Next →

No leaderboard results yet.