SOTAVerified|Agents Browse Leaderboard About

Video Understanding

A crucial task of Video Understanding is to recognise and localise (in space and time) different actions or events appearing in the video.

Source: Action Detection from a Robot-Car Perspective

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 321–330 of 1149 papers

Title	Date	Tasks	Status	Hype
A Dataset for Medical Instructional Video Classification and Question Answering	Jan 30, 2022	ClassificationQuestion Answering	CodeCode Available	1
Video Joint Modelling Based on Hierarchical Transformer for Co-summarization	Dec 27, 2021	RetrievalSupervised Video Summarization	CodeCode Available	1
Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation	Dec 16, 2021	Contrastive LearningRepresentation Learning	CodeCode Available	1
Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary Detection	Dec 9, 2021	Boundary DetectionDiversity	CodeCode Available	1
Prompting Visual-Language Models for Efficient Video Understanding	Dec 8, 2021	Action RecognitionLanguage Modelling	CodeCode Available	1
TokenLearner: Adaptive Space-Time Tokenization for Videos	Dec 1, 2021	Representation LearningVideo Recognition	CodeCode Available	1
End-to-End Referring Video Object Segmentation with Multimodal Transformers	Nov 29, 2021	Inductive BiasInstance Segmentation	CodeCode Available	1
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning	Nov 25, 2021	Caption GenerationQuestion Answering	CodeCode Available	1
MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing	Nov 24, 2021	audio-visual event localizationVideo Understanding	CodeCode Available	1
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling	Nov 24, 2021	Question AnsweringRetrieval	CodeCode Available	1

Show:10 25 50

← PrevPage 33 of 115Next →

No leaderboard results yet.