Action Recognition

Action Recognition is a computer vision task that involves recognizing human actions in videos or images. The goal is to classify and categorize the actions being performed in the video or image into a predefined set of action classes.

In the video domain, it is an open question whether training an action classification network on a sufficiently large dataset, will give a similar boost in performance when applied to a different temporal task or dataset. The challenges of building video datasets has meant that most popular benchmarks for action recognition are small, having on the order of 10k videos.

Please note some benchmarks may be located in the Action Classification or Video Classification tasks, e.g. Kinetics-400.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1701–1750 of 2759 papers

Title	Date	Tasks	Status
Your head is there to move you around: Goal-driven models of the primate dorsal pathway	Dec 1, 2021	Action RecognitionObject Recognition	—Unverified
Zero-Shot Action Recognition in Surveillance Videos	Oct 28, 2024	Action RecognitionVideo Understanding	—Unverified
Zero-Shot Action Recognition in Videos: A Survey	Sep 13, 2019	Action RecognitionAction Recognition In Still Images	—Unverified
Zero-Shot Action Recognition With Error-Correcting Output Codes	Jul 1, 2017	Action RecognitionTemporal Action Localization	—Unverified
Zero-Shot Activity Recognition with Videos	Jan 22, 2020	Action RecognitionActivity Recognition	—Unverified
Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection	Jan 23, 2024	Action RecognitionLanguage Modeling	—Unverified
Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment	Sep 22, 2024	Action RecognitionMetric Learning	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
Zero-Shot Visual Recognition via Bidirectional Latent Embedding	Jul 7, 2016	Action RecognitionTemporal Action Localization	—Unverified
10,000+ Times Accelerated Robust Subset Selection (ARSS)	Sep 12, 2014	10-shot image generationAction Recognition	—Unverified
How Much Does Audio Matter to Recognize Egocentric Object Interactions?	Jun 3, 2019	Action ClassificationAction Recognition	—Unverified
Action recognition with spatial-temporal discriminative filter banks	Aug 20, 2019	Action ClassificationAction Recognition	—Unverified
Learning Coupled Spatial-temporal Attention for Skeleton-based Action Recognition	Sep 23, 2019	Action RecognitionSkeleton Based Action Recognition	—Unverified
Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics	Aug 3, 2024	Action RecognitionComputational Efficiency	—Unverified
MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition	Aug 3, 2024	Action Recognition	—Unverified
Enhancing Human Action Recognition and Violence Detection Through Deep Learning Audiovisual Fusion	Aug 4, 2024	Action RecognitionActivity Recognition	—Unverified
Prototype Learning for Micro-gesture Classification	Aug 6, 2024	Action RecognitionClassification	—Unverified
2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos	Sep 11, 2024	Action Recognition	—Unverified
2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition	Dec 29, 2020	Action RecognitionPolicy Gradient Methods	—Unverified
2D versus 3D Convolutional Spiking Neural Networks Trained with Unsupervised STDP for Human Action Recognition	May 26, 2022	Action RecognitionTemporal Action Localization	—Unverified
2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors Challenges: An Efficient Optical Flow Stream Guided Framework	Aug 10, 2020	Action RecognitionOptical Flow Estimation	—Unverified
3D Action Recognition From Novel Viewpoints	Jun 1, 2016	3D Action RecognitionAction Recognition	—Unverified
3D Convolutional Networks for Action Recognition: Application to Sport Gesture Recognition	Apr 13, 2022	Action RecognitionClassification	—Unverified
3D Convolutional Neural Networks for Ultrasound-Based Silent Speech Interfaces	Apr 23, 2021	Action RecognitionTemporal Action Localization	—Unverified
3D Convolutional with Attention for Action Recognition	Jun 5, 2022	Action RecognitionOptical Flow Estimation	—Unverified
3DFCNN: Real-Time Action Recognition using 3D Deep Neural Networks with Raw Depth Information	Jun 13, 2020	Action RecognitionTemporal Action Localization	—Unverified
3D Human Action Recognition with Siamese-LSTM Based Deep Metric Learning	Jul 5, 2018	3D Action RecognitionAction Recognition	—Unverified
3D Human motion anticipation and classification	Dec 31, 2020	Action RecognitionActivity Recognition	—Unverified
3d human motion generation from the text via gesture action classification and the autoregressive model	Nov 18, 2022	Action ClassificationAction Recognition	—Unverified
3D Human Pose Estimation in Multi-View Operating Room Videos Using Differentiable Camera Projections	Oct 21, 2022	3D Human Pose EstimationAction Recognition	—Unverified
3DPalsyNet: A Facial Palsy Grading and Motion Recognition Framework using Fully 3D Convolutional Neural Networks	May 31, 2019	Action RecognitionTransfer Learning	—Unverified
3D ResNet with Ranking Loss Function for Abnormal Activity Detection in Videos	Feb 4, 2020	Action DetectionAction Recognition	—Unverified
3D R Transform on Spatio-temporal Interest Points for Action Recognition	Jun 1, 2013	Action RecognitionTemporal Action Localization	—Unverified
3D Skeleton-Based Action Recognition: A Review	Jun 1, 2025	Action RecognitionData Augmentation	—Unverified
3D Skeleton-based Few-shot Action Recognition with JEANIE is not so Naïve	Dec 23, 2021	Action RecognitionDynamic Time Warping	—Unverified
3Mformer: Multi-order Multi-mode Transformer for Skeletal Action Recognition	Mar 25, 2023	Action RecognitionSkeleton Based Action Recognition	—Unverified
A^2-Nets: Double Attention Networks	Oct 27, 2018	3D Absolute Human Pose EstimationAction Classification	—Unverified
A3D: Adaptive 3D Networks for Video Action Recognition	Nov 24, 2020	Action RecognitionTemporal Action Localization	—Unverified
A Baseline Framework for Part-level Action Parsing and Action Recognition	Oct 7, 2021	Action ParsingAction Recognition	—Unverified
A baseline on continual learning methods for video action recognition	Apr 20, 2023	Action RecognitionContinual Learning	—Unverified
A Better Baseline for AVA	Jul 26, 2018	Action LocalizationAction Recognition	—Unverified
A Cause and Effect Analysis of Motion Trajectories for Modeling Actions	Jun 1, 2014	Action ClassificationAction Recognition	—Unverified
Accuracy and Performance Comparison of Video Action Recognition Approaches	Aug 20, 2020	Action RecognitionTemporal Action Localization	—Unverified
A Compact Kernel Approximation for 3D Action Recognition	Sep 6, 2017	3D Action RecognitionAction Recognition	—Unverified
A compact sequence encoding scheme for online human activity recognition in HRI applications	Dec 1, 2020	Action RecognitionActivity Recognition	—Unverified
A Comprehensive Review of Few-shot Action Recognition	Jul 20, 2024	Action RecognitionFew-Shot action recognition	—Unverified
A Comprehensive Survey on Architectural Advances in Deep CNNs: Challenges, Applications, and Emerging Research Directions	Mar 19, 2025	Action RecognitionComputational Efficiency	—Unverified
A Cross-Dataset Study for Text-based 3D Human Motion Retrieval	May 27, 2024	Action RecognitionRetrieval	—Unverified
ActAR: Actor-Driven Pose Embeddings for Video Action Recognition	Apr 19, 2022	Action RecognitionOptical Flow Estimation	—Unverified
Action2Activity: Recognizing Complex Activities from Sensor Data	Nov 7, 2016	Action RecognitionActivity Recognition	—Unverified

Show:10 25 50

← PrevPage 35 of 56Next →

All datasets Something-Something V2 UCF101 HMDB-51 Something-Something V1 AVA v2.2 EPIC-KITCHENS-100 NTU RGB+D NTU RGB+D 120 Diving-48 ActivityNet AVA v2.1 H2O (2 Hands and Objects)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MViTv2-B (IN-21K + Kinetics400 pretrain)	Top-5 Accuracy	93.4	—	Unverified
2	RSANet-R50 (8+16 frames, ImageNet pretrained, 2 clips)	Top-5 Accuracy	91.1	—	Unverified
3	MVD (Kinetics400 pretrain, ViT-H, 16 frame)	Top-1 Accuracy	77.3	—	Unverified
4	InternVideo	Top-1 Accuracy	77.2	—	Unverified
5	DejaVid	Top-1 Accuracy	77.2	—	Unverified
6	InternVideo2-1B	Top-1 Accuracy	77.1	—	Unverified
7	VideoMAE V2-g	Top-1 Accuracy	77	—	Unverified
8	MVD (Kinetics400 pretrain, ViT-L, 16 frame)	Top-1 Accuracy	76.7	—	Unverified
9	Hiera-L (no extra data)	Top-1 Accuracy	76.5	—	Unverified
10	TubeViT-L	Top-1 Accuracy	76.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FTP-UniFormerV2-L/14	3-fold Accuracy	99.7	—	Unverified
2	OmniVec2	3-fold Accuracy	99.6	—	Unverified
3	OmniVec	3-fold Accuracy	99.6	—	Unverified
4	VideoMAE V2-g	3-fold Accuracy	99.6	—	Unverified
5	BIKE	3-fold Accuracy	98.8	—	Unverified
6	SMART	3-fold Accuracy	98.64	—	Unverified
7	ZeroI2V ViT-L/14	3-fold Accuracy	98.6	—	Unverified
8	OmniSource (SlowOnly-8x8-R101-RGB + I3D-Flow)	3-fold Accuracy	98.6	—	Unverified
9	PERF-Net (multi-distilled S3D)	3-fold Accuracy	98.6	—	Unverified
10	Text4Vis	3-fold Accuracy	98.2	—	Unverified