SOTAVerified|Agents Browse Leaderboard About

Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 1149 papers

Title	Date	Tasks	Status
How to Make a BLT Sandwich? Learning to Reason towards Understanding Web Instructional Videos	Dec 2, 2018	Logical ReasoningQuestion Answering	—Unverified
Hierarchical Video Frame Sequence Representation with Deep Convolutional Graph Network	Jun 2, 2019	General ClassificationGraph Neural Network	—Unverified
MM-Ego: Towards Building Egocentric Multimodal LLMs	Oct 9, 2024	Video Understanding	—Unverified
How Can Objects Help Video-Language Understanding?	Apr 10, 2025	Image CaptioningObject	—Unverified
H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving	Jan 8, 2025	Autonomous DrivingMamba	—Unverified
HLVU : A New Challenge to Test Deep Understanding of Movies the Way Humans do	May 1, 2020	Video Understanding	—Unverified
Highlight Timestamp Detection Model for Comedy Videos via Multimodal Sentiment Analysis	May 28, 2021	Multimodal Sentiment AnalysisObject Recognition	—Unverified
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding	May 23, 2025	FormQuestion Answering	—Unverified
Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural Architecture Search	Dec 9, 2021	Neural Architecture SearchVideo Recognition	—Unverified
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning	Sep 30, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	—Unverified
HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding	Dec 5, 2023	DiversityGraph Generation	—Unverified
Deep Spatio-Temporal Random Fields for Efficient Video Segmentation	Jul 3, 2018	Instance SegmentationSemantic Segmentation	—Unverified
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding	Jan 1, 2025	Question AnsweringVideo Understanding	—Unverified
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training	Jul 5, 2020	DecoderQuestion Answering	—Unverified
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark	Oct 4, 2024	Image CaptioningVideo Understanding	—Unverified
Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions	May 28, 2024	Action RecognitionVideo Recognition	—Unverified
HFGCN:Hypergraph Fusion Graph Convolutional Networks for Skeleton-Based Action Recognition	Jan 19, 2025	Action RecognitionRelation Classification	—Unverified
Deep learning for action spotting in association football videos	Oct 2, 2024	Action SpottingBenchmarking	—Unverified
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model	Jun 1, 2024	Action RecognitionActivity Recognition	—Unverified
DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description	Mar 31, 2025	Video DescriptionVideo Understanding	—Unverified
Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions	Mar 11, 2024	counterfactualVideo Editing	—Unverified
Cycle-Contrast for Self-Supervised Video Representation Learning	Oct 28, 2020	Action RecognitionContrastive Learning	—Unverified
A Unified Model for Video Understanding and Knowledge Embedding with Heterogeneous Knowledge Graph Dataset	Nov 19, 2022	Common Sense ReasoningGraph Embedding	—Unverified
HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions	Sep 16, 2024	Dimensionality ReductionVideo Understanding	—Unverified
Aggregating Frame-level Features for Large-Scale Video Classification	Jul 4, 2017	ClassificationGeneral Classification	—Unverified

Show:10 25 50

← PrevPage 22 of 46Next →

No leaderboard results yet.