SOTAVerified|Agents Browse Leaderboard About

Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 676–700 of 1149 papers

Title	Date	Tasks	Status
SoccerNet 2024 Challenges Results	Sep 16, 2024	Action SpottingDense Video Captioning	CodeCode Available
Enhancing Long Video Understanding via Hierarchical Event-Based Memory	Sep 10, 2024	Video Understanding	—Unverified
VidLPRO: A Video-Language Pre-training Framework for Robotic and Laparoscopic Surgery	Sep 7, 2024	Computational EfficiencyContrastive Learning	—Unverified
TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations	Sep 5, 2024	Causal InferencePosition	—Unverified
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges	Sep 2, 2024	GPUMVBench	—Unverified
StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models	Aug 31, 2024	Video Understanding	—Unverified
Streamlining Forest Wildfire Surveillance: AI-Enhanced UAVs Utilizing the FLAME Aerial Video Dataset for Lightweight and Efficient Monitoring	Aug 31, 2024	Disaster ResponseVideo Understanding	—Unverified
DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning	Aug 29, 2024	Multi-Task LearningPrompt Learning	—Unverified
Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input	Aug 28, 2024	Language ModelingLanguage Modelling	—Unverified
Attend-Fusion: Efficient Audio-Visual Fusion for Video Classification	Aug 26, 2024	Video ClassificationVideo Understanding	—Unverified
LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models	Aug 26, 2024	Large Language ModelVideo Quality Assessment	CodeCode Available
LongVILA: Scaling Long-Context Visual Language Models for Long Videos	Aug 19, 2024	Video CaptioningVideo Question Answering	—Unverified
Flatten: Video Action Recognition is an Image Classification task	Aug 17, 2024	Action Recognitionimage-classification	—Unverified
Disentangle and denoise: Tackling context misalignment for video moment retrieval	Aug 14, 2024	DenoisingDisentanglement	—Unverified
Spherical World-Locking for Audio-Visual Localization in Egocentric Videos	Aug 9, 2024	Active Speaker LocalizationDecoder	—Unverified
VideoQA in the Era of LLMs: An Empirical Study	Aug 8, 2024	Multimodal Large Language ModelVideo Question Answering	CodeCode Available
LLaVA-OneVision: Easy Visual Task Transfer	Aug 6, 2024	3D Question Answering (3D-QA)	CodeCode Available
FE-Adapter: Adapting Image-based Emotion Classifiers to Videos	Aug 5, 2024	Dynamic Facial Expression RecognitionEmotion Recognition	—Unverified
Multimodal Fusion and Coherence Modeling for Video Topic Segmentation	Aug 1, 2024	Contrastive LearningMixture-of-Experts	—Unverified
Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter	Jul 29, 2024	Action RecognitionAdversarial Robustness	—Unverified
Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation	Jul 28, 2024	Video Understanding	—Unverified
Wolf: Captioning Everything with a World Summarization Framework	Jul 26, 2024	Autonomous DrivingMixture-of-Experts	—Unverified
Audio-visual training for improved grounding in video-text LLMs	Jul 21, 2024	Video Understanding	—Unverified
Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data	Jul 18, 2024	Language ModellingLarge Language Model	—Unverified
Open Vocabulary Multi-Label Video Classification	Jul 12, 2024	Action ClassificationClassification	—Unverified

Show:10 25 50

← PrevPage 28 of 46Next →

No leaderboard results yet.