Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 376–400 of 1149 papers

Title	Date	Tasks	Status	Hype	Score
EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding	Aug 17, 2023	DiagnosticEgoSchema	CodeCode Available	1	5
InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding	Jun 28, 2024	Multiple-choiceVideo Understanding	CodeCode Available	1	5
Can An Image Classifier Suffice For Action Recognition?	Jun 26, 2021	Action Recognitionimage-classification	CodeCode Available	1	5
Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding	Jul 11, 2024	EEGLanguage Modeling	CodeCode Available	1	5
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning	Dec 4, 2024	Multimodal Large Language ModelVideo Understanding	CodeCode Available	1	5
Crossover Learning for Fast Online Video Instance Segmentation	Apr 13, 2021	Instance SegmentationSemantic Segmentation	CodeCode Available	1	5
TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action Recognition	Mar 28, 2023	Action RecognitionOptical Flow Estimation	CodeCode Available	1	5
EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval	Jul 23, 2024	Re-RankingRetrieval	CodeCode Available	1	5
How Severe is Benchmark-Sensitivity in Video Self-Supervised Learning?	Mar 27, 2022	Self-Supervised LearningSensitivity	CodeCode Available	1	5
An Empirical Study of End-to-End Temporal Action Detection	Apr 6, 2022	Action ClassificationAction Detection	CodeCode Available	1	5
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation	Dec 12, 2023	Anomaly DetectionAutonomous Driving	CodeCode Available	1	5
Large Scale Holistic Video Understanding	Apr 25, 2019	Action ClassificationAction Recognition	CodeCode Available	1	5
Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models	Jul 9, 2023	Question AnsweringTGIF-Frame	CodeCode Available	1	5
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens	Nov 19, 2022	Action RecognitionObject State Change Classification	CodeCode Available	1	5
SoccerNet 2022 Challenges Results	Oct 5, 2022	Action SpottingCamera Calibration	CodeCode Available	1	5
Learning Temporally Causal Latent Processes from General Temporal Data	Oct 11, 2021	Causal DiscoveryRepresentation Learning	CodeCode Available	1	5
Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models	Mar 20, 2025	Multiple-choiceVideo Understanding	CodeCode Available	1	5
Hier-EgoPack: Hierarchical Egocentric Video Understanding with Diverse Task Perspectives	Feb 4, 2025	Video Understanding	CodeCode Available	1	5
MH-DETR: Video Moment and Highlight Detection with Cross-modal Transformer	Apr 29, 2023	DecoderHighlight Detection	CodeCode Available	1	5
TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos	Mar 9, 2025	Action LocalizationBoundary Detection	CodeCode Available	1	5
CyberV: Cybernetics for Test-time Scaling in Video Understanding	Jun 9, 2025	Video Understanding	CodeCode Available	1	5
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning	Nov 27, 2023	Action ClassificationAction Recognition	CodeCode Available	1	5
TokenLearner: Adaptive Space-Time Tokenization for Videos	Dec 1, 2021	Representation LearningVideo Recognition	CodeCode Available	1	5
Towards Long-Form Video Understanding	Jun 21, 2021	Action RecognitionForm	CodeCode Available	1	5
VideoMamba: Spatio-Temporal Selective State Space Model	Jul 11, 2024	Mambamodel	CodeCode Available	1	5

Show:10 25 50

← PrevPage 16 of 46Next →

No leaderboard results yet.