Action Recognition In Videos

Action Recognition in Videos is a task in computer vision and pattern recognition where the goal is to identify and categorize human actions performed in a video sequence. The task involves analyzing the spatiotemporal dynamics of the actions and mapping them to a predefined set of action classes, such as running, jumping, or swimming.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 124 papers

Title	Date	Tasks	Status	Hype
A new face swap method for image and video domains: a technical report	Feb 7, 2022	Action Recognition In VideosFace Recognition	CodeCode Available	3
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking	Mar 29, 2023	Action ClassificationAction Recognition	CodeCode Available	2
Learning Spatiotemporal Features with 3D Convolutional Networks	Dec 2, 2014	Action RecognitionAction Recognition In Videos	CodeCode Available	2
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition	Aug 2, 2016	Action ClassificationAction Recognition	CodeCode Available	2
Temporal Segment Networks for Action Recognition in Videos	May 8, 2017	Action ClassificationAction Recognition	CodeCode Available	2
MMNet: A Model-Based Multimodal Network for Human Action Recognition in RGB-D Videos	May 26, 2022	Action ClassificationAction Recognition	CodeCode Available	1
IntegralAction: Pose-driven Feature Integration for Robust Human Action Recognition in Videos	Jul 13, 2020	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Self-supervised Video Transformer	Dec 2, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Unsupervised Learning of Video Representations via Dense Trajectory Clustering	Jun 28, 2020	Action RecognitionAction Recognition In Videos	CodeCode Available	1
TDN: Temporal Difference Networks for Efficient Action Recognition	Dec 18, 2020	Action ClassificationAction Recognition	CodeCode Available	1
Learning Implicit Temporal Alignment for Few-shot Video Classification	May 11, 2021	Action Recognition In VideosClassification	CodeCode Available	1
Tensor Representations for Action Recognition	Dec 28, 2020	Action RecognitionAction Recognition In Videos	CodeCode Available	1
DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition	Mar 19, 2022	Action ClassificationAction Recognition	CodeCode Available	1
Florence: A New Foundation Model for Computer Vision	Nov 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text	Apr 22, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos	Apr 11, 2024	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting	Jun 18, 2021	Action RecognitionAction Recognition In Videos	CodeCode Available	1
SlowFast Networks for Video Recognition	Dec 10, 2018	Action ClassificationAction Detection	CodeCode Available	1
Actor-agnostic Multi-label Action Recognition with Multi-modal Query	Jul 20, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Spatiotemporal Residual Networks for Video Action Recognition	Nov 7, 2016	Action RecognitionAction Recognition In Videos	CodeCode Available	1
TEA: Temporal Excitation and Aggregation for Action Recognition	Apr 3, 2020	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Towards Good Practices for Very Deep Two-Stream ConvNets	Jul 8, 2015	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Region-based Non-local Operation for Video Classification	Jul 17, 2020	Action ClassificationAction Recognition	CodeCode Available	1
YouTube-8M: A Large-Scale Video Classification Benchmark	Sep 27, 2016	3D Face ReconstructionAction Recognition	CodeCode Available	1
ActionCLIP: A New Paradigm for Video Action Recognition	Sep 17, 2021	Action ClassificationAction Recognition	CodeCode Available	1
CAST: Cross-Attention in Space and Time for Video Action Recognition	Nov 30, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Multimodal Fusion via Teacher-Student Network for Indoor Action Recognition	May 18, 2021	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning	Dec 6, 2022	Action ClassificationAction Recognition	CodeCode Available	1
Skeleton-based Action Recognition via Spatial and Temporal Transformer Networks	Aug 17, 2020	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Logsig-RNN: a novel network for robust and efficient skeleton-based action recognition	Oct 25, 2021	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Space-time Mixing Attention for Video Transformer	Jun 10, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Busy-Quiet Video Disentangling for Video Classification	Mar 29, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Dual-path Adaptation from Image to Video Transformers	Mar 17, 2023	Action ClassificationAction Recognition	CodeCode Available	1
A Dense-Sparse Complementary Network for Human Action Recognition based on RGB and Skeleton Modalities	Dec 28, 2023	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Multi-Temporal Convolutions for Human Action Recognition in Videos	Nov 8, 2020	Action RecognitionAction Recognition In Videos	CodeCode Available	1
Self-supervised Video Representation Learning Using Inter-intra Contrastive Framework	Aug 6, 2020	Action Recognition In VideosContrastive Learning	CodeCode Available	1
EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition	Aug 10, 2024	Action ClassificationAction Recognition	CodeCode Available	1
Discriminative Video Representation Learning Using Support Vector Classifiers	Sep 5, 2019	Action RecognitionAction Recognition In Videos	—Unverified	0
Discriminative convolutional Fisher vector network for action recognition	Jul 19, 2017	Action RecognitionAction Recognition In Videos	—Unverified	0
AdaScan: Adaptive Scan Pooling in Deep Convolutional Neural Networks for Human Action Recognition in Videos	Nov 24, 2016	Action RecognitionAction Recognition In Videos	—Unverified	0
Developing Motion Code Embedding for Action Recognition in Videos	Dec 10, 2020	Action RecognitionAction Recognition In Videos	—Unverified	0
Bag of Visual Words and Fusion Methods for Action Recognition: Comprehensive Study and Good Practice	May 18, 2014	Action RecognitionAction Recognition In Videos	—Unverified	0
Per-Sample Kernel Adaptation for Visual Recognition and Grouping	Dec 1, 2015	Action RecognitionAction Recognition In Videos	—Unverified	0
DenseImage Network: Video Spatial-Temporal Evolution Encoding and Understanding	May 19, 2018	Action Recognition In VideosGesture Recognition	—Unverified	0
Deep Learning Approaches for Human Action Recognition in Video Data	Mar 11, 2024	Action RecognitionAction Recognition In Videos	—Unverified	0
Deep Image-to-Video Adaptation and Fusion Networks for Action Recognition	Nov 25, 2019	Action RecognitionAction Recognition In Videos	—Unverified	0
Coupled Recurrent Network (CRN)	Dec 25, 2018	Action RecognitionAction Recognition In Videos	—Unverified	0
Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition	Dec 14, 2017	Action RecognitionAction Recognition In Videos	—Unverified	0
An Information-rich Sampling Technique over Spatio-Temporal CNN for Classification of Human Actions in Videos	Feb 6, 2020	Action RecognitionAction Recognition In Videos	—Unverified	0
NAS-TC: Neural Architecture Search on Temporal Convolutions for Complex Action Recognition	Mar 17, 2021	Action RecognitionAction Recognition In Videos	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Jester (Gesture Recognition)PKU-MMD UCF101 Something-Something V2 Kinetics 400 AVA v2.2 FS-Something-Something V2-Full FS-Something-Something V2-Small Sports-1M THUMOS14 ActivityNet AVA v2.1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CPNet Res34, 5 CP	Val	96.7	—	Unverified
2	STM (Resnet-50, 16 frames)	Val	96.7	—	Unverified
3	MFNet	Val	96.68	—	Unverified
4	DIN	Val	95.31	—	Unverified
5	MultiScale TRN	Val	95.31	—	Unverified
6	convSTAR	Val	92.7	—	Unverified
7	3D-SqueezeNet	Val	90.77	—	Unverified
8	3D-ShuffleNetV2 0.25x	Val	86.91	—	Unverified
9	3D-MobileNetV2 0.2x	Val	86.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DSCNet (RGB + Pose)	X-Sub	97.4	—	Unverified
2	MMNet	X-Sub	97.4	—	Unverified
3	EPAM-Net	X-Sub	96.2	—	Unverified
4	DVANet (RGB only)	X-Sub	95.8	—	Unverified
5	TSMF	X-Sub	95.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	3-fold Accuracy	96.2	—	Unverified
2	3D-SqueezeNet	3-fold Accuracy	74.94	—	Unverified
3	3D-ShuffleNetV2 0.25x	3-fold Accuracy	56.52	—	Unverified
4	3D-MobileNetV2 0.2x	3-fold Accuracy	55.56	—	Unverified
5	Baseline UCF101	3-fold Accuracy	43.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top-1 Accuracy	64.2	—	Unverified
2	CPNet Res34, 5 CP	Top-1 Accuracy	57.65	—	Unverified
3	2-Stream TRN	Top-1 Accuracy	55.52	—	Unverified
4	DIN	Top-1 Accuracy	34.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	86.5	—	Unverified
2	ActionCLIP (ViT-B/16)	Top-1 Accuracy	83.8	—	Unverified
3	Frozen Backbone, SwinV2-G-ext22K (Video-Swin)	Top-1 Accuracy	81.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	20.2	—	Unverified
2	VideoMAE V2	mAP (Val)	18.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	49.2	—	Unverified
2	OTAM[3]++	Top-1 Accuracy(5-Way-1-Shot)	42.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	39.8	—	Unverified
2	CMN[35]	Top-1 Accuracy(5-Way-1-Shot)	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Video hit@1	74.8	—	Unverified
2	LSTM +Pretrained on YT-8M	Video hit@1	65.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Single-stream R-C3D (two-way buffer)	[email protected]	54.5	—	Unverified
2	Single-stream R-C3D (one-way buffer)	[email protected]	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM + Pretrained on YT-8M	mAP	75.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	19.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	Average accuracy of 3 splits	72.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	87.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Clip Hit@1	49.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	2D-3D-Softargmax (RGB only)	Accuracy (CS)	85.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top 1 Accuracy	50.7	—	Unverified