Action Recognition In Videos

Action Recognition in Videos is a task in computer vision and pattern recognition where the goal is to identify and categorize human actions performed in a video sequence. The task involves analyzing the spatiotemporal dynamics of the actions and mapping them to a predefined set of action classes, such as running, jumping, or swimming.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 124 papers

Title	Date	Tasks	Status
Coupled Recurrent Network (CRN)	Dec 25, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Deep Image-to-Video Adaptation and Fusion Networks for Action Recognition	Nov 25, 2019	Action RecognitionAction Recognition In Videos	—Unverified
Deep Learning Approaches for Human Action Recognition in Video Data	Mar 11, 2024	Action RecognitionAction Recognition In Videos	—Unverified
DenseImage Network: Video Spatial-Temporal Evolution Encoding and Understanding	May 19, 2018	Action Recognition In VideosGesture Recognition	—Unverified
Developing Motion Code Embedding for Action Recognition in Videos	Dec 10, 2020	Action RecognitionAction Recognition In Videos	—Unverified
Discriminative convolutional Fisher vector network for action recognition	Jul 19, 2017	Action RecognitionAction Recognition In Videos	—Unverified
Discriminative Video Representation Learning Using Support Vector Classifiers	Sep 5, 2019	Action RecognitionAction Recognition In Videos	—Unverified
DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition	Jan 11, 2019	Action ClassificationAction Recognition	—Unverified
Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web	Dec 22, 2015	Action RecognitionAction Recognition In Videos	—Unverified
Dynamic Inference: A New Approach Toward Efficient Video Action Recognition	Feb 9, 2020	Action RecognitionAction Recognition In Videos	—Unverified
Dynamic Sampling Networks for Efficient Action Recognition in Videos	Jun 28, 2020	Action RecognitionAction Recognition In Videos	—Unverified
Evolving Space-Time Neural Architectures for Videos	Nov 26, 2018	Action ClassificationAction Recognition	—Unverified
Hierarchical Attention Network for Action Recognition in Videos	Jul 21, 2016	Action RecognitionAction Recognition In Videos	—Unverified
Knowledge Prompting for Few-shot Action Recognition	Nov 22, 2022	Action RecognitionAction Recognition In Videos	—Unverified
Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition	Dec 14, 2017	Action RecognitionAction Recognition In Videos	—Unverified
Learning to Recognize 3D Human Action from A New Skeleton-based Representation Using Deep Convolutional Neural Networks	Dec 26, 2018	3D Action RecognitionAction Recognition	—Unverified
Learning Transferable Self-attentive Representations for Action Recognition in Untrimmed Videos with Weak Supervision	Feb 20, 2019	Action RecognitionAction Recognition In Videos	—Unverified
Developing the Path Signature Methodology and its Application to Landmark-based Human Action Recognition	Jul 13, 2017	Action ClassificationAction Recognition	—Unverified
Motion Feature Network: Fixed Motion Filter for Action Recognition	Jul 26, 2018	Action RecognitionAction Recognition In Videos	—Unverified
NAS-TC: Neural Architecture Search on Temporal Convolutions for Complex Action Recognition	Mar 17, 2021	Action RecognitionAction Recognition In Videos	—Unverified
Per-Sample Kernel Adaptation for Visual Recognition and Grouping	Dec 1, 2015	Action RecognitionAction Recognition In Videos	—Unverified
Pose-Based Two-Stream Relational Networks for Action Recognition in Videos	May 22, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Pose from Action: Unsupervised Learning of Pose Features based on Motion	Sep 18, 2016	Action RecognitionAction Recognition In Videos	—Unverified
Procedural Generation of Videos to Train Deep Action Recognition Networks	Dec 2, 2016	Action RecognitionAction Recognition In Videos	—Unverified
Skeletal Movement to Color Map: A Novel Representation for 3D Action Recognition with Inception Residual Networks	Jul 18, 2018	3D Action RecognitionAction Recognition	—Unverified
Skeleton based Activity Recognition by Fusing Part-wise Spatio-temporal and Attention Driven Residues	Dec 2, 2019	3D Action RecognitionAction Recognition	—Unverified
Spatiotemporal Fusion in 3D CNNs: A Probabilistic View	Apr 10, 2020	Action RecognitionAction Recognition In Videos	—Unverified
Spatio-Temporal Vector of Locally Max Pooled Features for Action Recognition in Videos	Jul 1, 2017	Action RecognitionAction Recognition In Videos	—Unverified
STM: SpatioTemporal and Motion Encoding for Action Recognition	Aug 7, 2019	Action ClassificationAction Recognition	—Unverified
Sympathy for the Details: Dense Trajectories and Hybrid Classification Architectures for Action Recognition	Aug 25, 2016	Action RecognitionAction Recognition In Videos	—Unverified
Technical Report: Disentangled Action Parsing Networks for Accurate Part-level Action Parsing	Nov 5, 2021	Action ParsingAction Recognition	—Unverified
Temporal Difference Networks for Action Recognition	Jan 1, 2021	Action RecognitionAction Recognition In Videos	—Unverified
Temporal Sequence Distillation: Towards Few-Frame Action Recognition in Videos	Aug 15, 2018	Action RecognitionAction Recognition In Videos	—Unverified
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks	May 14, 2024	Action RecognitionAction Recognition In Videos	—Unverified
Top-down Attention Recurrent VLAD Encoding for Action Recognition in Videos	Aug 29, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Toward Accurate Person-level Action Recognition in Videos of Crowded Scenes	Oct 16, 2020	Action RecognitionAction Recognition In Videos	—Unverified
Towards Efficient Coarse-to-Fine Networks for Action and Gesture Recognition	Aug 1, 2020	3D Action RecognitionAction Classification	—Unverified
Video Representation Learning Using Discriminative Pooling	Mar 26, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Visual Attribute-augmented Three-dimensional Convolutional Neural Network for Enhanced Human Action Recognition	May 8, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Where and when to look? Spatial-temporal attention for action recognition in videos	May 1, 2019	Action RecognitionAction Recognition In Videos	—Unverified
Collaborative Spatiotemporal Feature Learning for Video Action Recognition	Jun 1, 2019	Action ClassificationAction Recognition	CodeCode Available
Collaborative Spatio-temporal Feature Learning for Video Action Recognition	Mar 4, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available
Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer	Feb 17, 2023	Action RecognitionAction Recognition In Videos	CodeCode Available
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles	Jun 1, 2023	Action ClassificationAction Recognition	CodeCode Available
HaltingVT: Adaptive Token Halting Transformer for Efficient Video Recognition	Jan 10, 2024	Action RecognitionAction Recognition In Videos	CodeCode Available
Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition	Mar 19, 2025	Action RecognitionAction Recognition In Videos	CodeCode Available
ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos	Apr 9, 2024	Action RecognitionAction Recognition In Videos	CodeCode Available
Temporal Relational Reasoning in Videos	Nov 22, 2017	Action ClassificationAction Recognition	CodeCode Available
Gating Revisited: Deep Multi-layer RNNs That Can Be Trained	Nov 25, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets Jester (Gesture Recognition)PKU-MMD UCF101 Something-Something V2 Kinetics 400 AVA v2.2 FS-Something-Something V2-Full FS-Something-Something V2-Small Sports-1M THUMOS14 ActivityNet AVA v2.1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CPNet Res34, 5 CP	Val	96.7	—	Unverified
2	STM (Resnet-50, 16 frames)	Val	96.7	—	Unverified
3	MFNet	Val	96.68	—	Unverified
4	DIN	Val	95.31	—	Unverified
5	MultiScale TRN	Val	95.31	—	Unverified
6	convSTAR	Val	92.7	—	Unverified
7	3D-SqueezeNet	Val	90.77	—	Unverified
8	3D-ShuffleNetV2 0.25x	Val	86.91	—	Unverified
9	3D-MobileNetV2 0.2x	Val	86.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DSCNet (RGB + Pose)	X-Sub	97.4	—	Unverified
2	MMNet	X-Sub	97.4	—	Unverified
3	EPAM-Net	X-Sub	96.2	—	Unverified
4	DVANet (RGB only)	X-Sub	95.8	—	Unverified
5	TSMF	X-Sub	95.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	3-fold Accuracy	96.2	—	Unverified
2	3D-SqueezeNet	3-fold Accuracy	74.94	—	Unverified
3	3D-ShuffleNetV2 0.25x	3-fold Accuracy	56.52	—	Unverified
4	3D-MobileNetV2 0.2x	3-fold Accuracy	55.56	—	Unverified
5	Baseline UCF101	3-fold Accuracy	43.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top-1 Accuracy	64.2	—	Unverified
2	CPNet Res34, 5 CP	Top-1 Accuracy	57.65	—	Unverified
3	2-Stream TRN	Top-1 Accuracy	55.52	—	Unverified
4	DIN	Top-1 Accuracy	34.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	86.5	—	Unverified
2	ActionCLIP (ViT-B/16)	Top-1 Accuracy	83.8	—	Unverified
3	Frozen Backbone, SwinV2-G-ext22K (Video-Swin)	Top-1 Accuracy	81.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	20.2	—	Unverified
2	VideoMAE V2	mAP (Val)	18.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	49.2	—	Unverified
2	OTAM[3]++	Top-1 Accuracy(5-Way-1-Shot)	42.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	39.8	—	Unverified
2	CMN[35]	Top-1 Accuracy(5-Way-1-Shot)	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Video hit@1	74.8	—	Unverified
2	LSTM +Pretrained on YT-8M	Video hit@1	65.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Single-stream R-C3D (two-way buffer)	mAP@0.1	54.5	—	Unverified
2	Single-stream R-C3D (one-way buffer)	mAP@0.1	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM + Pretrained on YT-8M	mAP	75.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	19.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	Average accuracy of 3 splits	72.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	87.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Clip Hit@1	49.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	2D-3D-Softargmax (RGB only)	Accuracy (CS)	85.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top 1 Accuracy	50.7	—	Unverified