Action Recognition

Action Recognition is a computer vision task that involves recognizing human actions in videos or images. The goal is to classify and categorize the actions being performed in the video or image into a predefined set of action classes.

In the video domain, it is an open question whether training an action classification network on a sufficiently large dataset, will give a similar boost in performance when applied to a different temporal task or dataset. The challenges of building video datasets has meant that most popular benchmarks for action recognition are small, having on the order of 10k videos.

Please note some benchmarks may be located in the Action Classification or Video Classification tasks, e.g. Kinetics-400.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1701–1725 of 2759 papers

Title	Date	Tasks	Status
Your head is there to move you around: Goal-driven models of the primate dorsal pathway	Dec 1, 2021	Action RecognitionObject Recognition	—Unverified
Zero-Shot Action Recognition in Surveillance Videos	Oct 28, 2024	Action RecognitionVideo Understanding	—Unverified
Zero-Shot Action Recognition in Videos: A Survey	Sep 13, 2019	Action RecognitionAction Recognition In Still Images	—Unverified
Zero-Shot Action Recognition With Error-Correcting Output Codes	Jul 1, 2017	Action RecognitionTemporal Action Localization	—Unverified
Zero-Shot Activity Recognition with Videos	Jan 22, 2020	Action RecognitionActivity Recognition	—Unverified
Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection	Jan 23, 2024	Action RecognitionLanguage Modeling	—Unverified
Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment	Sep 22, 2024	Action RecognitionMetric Learning	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
Zero-Shot Visual Recognition via Bidirectional Latent Embedding	Jul 7, 2016	Action RecognitionTemporal Action Localization	—Unverified
10,000+ Times Accelerated Robust Subset Selection (ARSS)	Sep 12, 2014	10-shot image generationAction Recognition	—Unverified
How Much Does Audio Matter to Recognize Egocentric Object Interactions?	Jun 3, 2019	Action ClassificationAction Recognition	—Unverified
Action recognition with spatial-temporal discriminative filter banks	Aug 20, 2019	Action ClassificationAction Recognition	—Unverified
Learning Coupled Spatial-temporal Attention for Skeleton-based Action Recognition	Sep 23, 2019	Action RecognitionSkeleton Based Action Recognition	—Unverified
Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics	Aug 3, 2024	Action RecognitionComputational Efficiency	—Unverified
MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition	Aug 3, 2024	Action Recognition	—Unverified
Enhancing Human Action Recognition and Violence Detection Through Deep Learning Audiovisual Fusion	Aug 4, 2024	Action RecognitionActivity Recognition	—Unverified
Prototype Learning for Micro-gesture Classification	Aug 6, 2024	Action RecognitionClassification	—Unverified
2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos	Sep 11, 2024	Action Recognition	—Unverified
2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition	Dec 29, 2020	Action RecognitionPolicy Gradient Methods	—Unverified
2D versus 3D Convolutional Spiking Neural Networks Trained with Unsupervised STDP for Human Action Recognition	May 26, 2022	Action RecognitionTemporal Action Localization	—Unverified
2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors Challenges: An Efficient Optical Flow Stream Guided Framework	Aug 10, 2020	Action RecognitionOptical Flow Estimation	—Unverified
3D Action Recognition From Novel Viewpoints	Jun 1, 2016	3D Action RecognitionAction Recognition	—Unverified
3D Convolutional Networks for Action Recognition: Application to Sport Gesture Recognition	Apr 13, 2022	Action RecognitionClassification	—Unverified
3D Convolutional Neural Networks for Ultrasound-Based Silent Speech Interfaces	Apr 23, 2021	Action RecognitionTemporal Action Localization	—Unverified
3D Convolutional with Attention for Action Recognition	Jun 5, 2022	Action RecognitionOptical Flow Estimation	—Unverified

Show:10 25 50

← PrevPage 69 of 111Next →

All datasets Something-Something V2 UCF101 HMDB-51 Something-Something V1 AVA v2.2 EPIC-KITCHENS-100 NTU RGB+D NTU RGB+D 120 Diving-48 ActivityNet AVA v2.1 H2O (2 Hands and Objects)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MViTv2-B (IN-21K + Kinetics400 pretrain)	Top-5 Accuracy	93.4	—	Unverified
2	RSANet-R50 (8+16 frames, ImageNet pretrained, 2 clips)	Top-5 Accuracy	91.1	—	Unverified
3	MVD (Kinetics400 pretrain, ViT-H, 16 frame)	Top-1 Accuracy	77.3	—	Unverified
4	DejaVid	Top-1 Accuracy	77.2	—	Unverified
5	InternVideo	Top-1 Accuracy	77.2	—	Unverified
6	InternVideo2-1B	Top-1 Accuracy	77.1	—	Unverified
7	VideoMAE V2-g	Top-1 Accuracy	77	—	Unverified
8	MVD (Kinetics400 pretrain, ViT-L, 16 frame)	Top-1 Accuracy	76.7	—	Unverified
9	Hiera-L (no extra data)	Top-1 Accuracy	76.5	—	Unverified
10	TubeViT-L	Top-1 Accuracy	76.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FTP-UniFormerV2-L/14	3-fold Accuracy	99.7	—	Unverified
2	OmniVec2	3-fold Accuracy	99.6	—	Unverified
3	VideoMAE V2-g	3-fold Accuracy	99.6	—	Unverified
4	OmniVec	3-fold Accuracy	99.6	—	Unverified
5	BIKE	3-fold Accuracy	98.8	—	Unverified
6	SMART	3-fold Accuracy	98.64	—	Unverified
7	OmniSource (SlowOnly-8x8-R101-RGB + I3D-Flow)	3-fold Accuracy	98.6	—	Unverified
8	PERF-Net (multi-distilled S3D)	3-fold Accuracy	98.6	—	Unverified
9	ZeroI2V ViT-L/14	3-fold Accuracy	98.6	—	Unverified
10	LGD-3D Two-stream	3-fold Accuracy	98.2	—	Unverified