Action Classification

Image source: The Kinetics Human Action Video Dataset

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 457 papers

Title	Date	Tasks	Status	Hype
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
VideoMamba: State Space Model for Efficient Video Understanding	Mar 11, 2024	Action ClassificationMamba	CodeCode Available	5
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video	Feb 1, 2023	Action ClassificationImage Classification	CodeCode Available	4
InternVideo: General Video Foundation Models via Generative and Discriminative Learning	Dec 6, 2022	Action ClassificationAction Recognition	CodeCode Available	4
Towards Universal Soccer Video Understanding	Dec 2, 2024	Action ClassificationSports Understanding	CodeCode Available	3
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3
Expanding Language-Image Pretrained Models for General Video Recognition	Aug 4, 2022	Action ClassificationAction Recognition	CodeCode Available	3
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training	Mar 23, 2022	4kAction Classification	CodeCode Available	3
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking	Mar 29, 2023	Action ClassificationAction Recognition	CodeCode Available	2
AIM: Adapting Image Models for Efficient Video Action Recognition	Feb 6, 2023	Action ClassificationAction Recognition	CodeCode Available	2
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models	Dec 31, 2022	Action ClassificationAction Recognition	CodeCode Available	2
Learning Video Representations from Large Language Models	Dec 8, 2022	Action ClassificationAction Recognition	CodeCode Available	2
MARLIN: Masked Autoencoder for facial video Representation LearnINg	Nov 12, 2022	Action ClassificationAttribute	CodeCode Available	2
UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer	Sep 22, 2022	Action ClassificationAction Recognition	CodeCode Available	2
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition	Jul 4, 2022	Action ClassificationAction Recognition	CodeCode Available	2
Omnivore: A Single Model for Many Visual Modalities	Jan 20, 2022	Action ClassificationAction Recognition	CodeCode Available	2
Video Swin Transformer	Jun 24, 2021	Action ClassificationAction Recognition	CodeCode Available	2
Is Space-Time Attention All You Need for Video Understanding?	Feb 9, 2021	Action ClassificationAction Recognition	CodeCode Available	2
X3D: Expanding Architectures for Efficient Video Recognition	Apr 9, 2020	Action Classificationfeature selection	CodeCode Available	2
Omni-sourced Webly-supervised Learning for Video Recognition	Mar 29, 2020	Action ClassificationAction Recognition	CodeCode Available	2
Temporal Segment Networks for Action Recognition in Videos	May 8, 2017	Action ClassificationAction Recognition	CodeCode Available	2
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition	Aug 2, 2016	Action ClassificationAction Recognition	CodeCode Available	2
Make Your Training Flexible: Towards Deployment-Efficient Video Models	Mar 18, 2025	Action ClassificationZero-Shot Video Retrieval	CodeCode Available	1
Temporal Action Localization with Cross Layer Task Decoupling and Refinement	Dec 12, 2024	Action ClassificationAction Localization	CodeCode Available	1
KNN-MMD: Cross Domain Wireless Sensing via Local Distribution Alignment	Dec 6, 2024	Action ClassificationAction Classification (1-shot)	CodeCode Available	1
Autoregressive Adaptive Hypergraph Transformer for Skeleton-based Activity Recognition	Nov 8, 2024	Action ClassificationActivity Recognition	CodeCode Available	1
CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network	Aug 20, 2024	Action ClassificationAction Classification (1-shot)	CodeCode Available	1
Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization	Aug 12, 2024	Action ClassificationAction Localization	CodeCode Available	1
EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition	Aug 10, 2024	Action ClassificationAction Recognition	CodeCode Available	1
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding	Jun 13, 2024	Action ClassificationAction Localization	CodeCode Available	1
Finding the Missing Data: A BERT-inspired Approach Against Package Loss in Wireless Sensing	Mar 19, 2024	Action ClassificationDeep Learning	CodeCode Available	1
Open-Vocabulary Video Relation Extraction	Dec 25, 2023	Action ClassificationAction Understanding	CodeCode Available	1
CAST: Cross-Attention in Space and Time for Video Action Recognition	Nov 30, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Just Add π! Pose Induced Video Transformers for Understanding Activities of Daily Living	Nov 30, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning	Nov 27, 2023	Action ClassificationAction Recognition	CodeCode Available	1
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video	Oct 2, 2023	Action ClassificationAction Recognition	CodeCode Available	1
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption	Aug 16, 2023	Action ClassificationImage-text Retrieval	CodeCode Available	1
Actor-agnostic Multi-label Action Recognition with Multi-modal Query	Jul 20, 2023	Action ClassificationAction Recognition	CodeCode Available	1
What Can Simple Arithmetic Operations Do for Temporal Modeling?	Jul 18, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Seeing the Pose in the Pixels: Learning Pose-Aware Representations in Vision Transformers	Jun 15, 2023	Action ClassificationAction Recognition	CodeCode Available	1
AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation	Apr 24, 2023	3D Hand Pose EstimationAction Classification	CodeCode Available	1
Implicit Temporal Modeling with Learnable Alignment for Video Recognition	Apr 20, 2023	Action ClassificationAction Recognition	CodeCode Available	1
The effectiveness of MAE pre-pretraining for billion-scale pretraining	Mar 23, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Dual-path Adaptation from Image to Video Transformers	Mar 17, 2023	Action ClassificationAction Recognition	CodeCode Available	1
HierVL: Learning Hierarchical Video-Language Embeddings	Jan 5, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation Learning	Dec 8, 2022	Action ClassificationAction Recognition	CodeCode Available	1
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning	Dec 6, 2022	Action ClassificationAction Recognition	CodeCode Available	1
Post-Processing Temporal Action Detection	Nov 27, 2022	Action ClassificationAction Detection	CodeCode Available	1
XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video Representation Learning	Nov 25, 2022	Action ClassificationClassification	CodeCode Available	1
AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders	Nov 16, 2022	Action ClassificationRepresentation Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 10Next →

No leaderboard results yet.