Action Recognition In Videos

Action Recognition in Videos is a task in computer vision and pattern recognition where the goal is to identify and categorize human actions performed in a video sequence. The task involves analyzing the spatiotemporal dynamics of the actions and mapping them to a predefined set of action classes, such as running, jumping, or swimming.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 124 papers

Title	Date	Tasks	Status	Hype	Score
Region-based Non-local Operation for Video Classification	Jul 17, 2020	Action ClassificationAction Recognition	CodeCode Available	1	5
Skeleton-based Action Recognition via Spatial and Temporal Transformer Networks	Aug 17, 2020	Action RecognitionAction Recognition In Videos	CodeCode Available	1	5
DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition	Mar 19, 2022	Action ClassificationAction Recognition	CodeCode Available	1	5
CAST: Cross-Attention in Space and Time for Video Action Recognition	Nov 30, 2023	Action ClassificationAction Recognition	CodeCode Available	1	5
Self-supervised Video Transformer	Dec 2, 2021	Action ClassificationAction Recognition	CodeCode Available	1	5
Multimodal Fusion via Teacher-Student Network for Indoor Action Recognition	May 18, 2021	Action RecognitionAction Recognition In Videos	CodeCode Available	1	5
Spatiotemporal Residual Networks for Video Action Recognition	Nov 7, 2016	Action RecognitionAction Recognition In Videos	CodeCode Available	1	5
Dual-path Adaptation from Image to Video Transformers	Mar 17, 2023	Action ClassificationAction Recognition	CodeCode Available	1	5
A Dense-Sparse Complementary Network for Human Action Recognition based on RGB and Skeleton Modalities	Dec 28, 2023	Action RecognitionAction Recognition In Videos	CodeCode Available	1	5
YouTube-8M: A Large-Scale Video Classification Benchmark	Sep 27, 2016	3D Face ReconstructionAction Recognition	CodeCode Available	1	5
Logsig-RNN: a novel network for robust and efficient skeleton-based action recognition	Oct 25, 2021	Action RecognitionAction Recognition In Videos	CodeCode Available	1	5
EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition	Aug 10, 2024	Action ClassificationAction Recognition	CodeCode Available	1	5
Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition	Mar 19, 2025	Action RecognitionAction Recognition In Videos	CodeCode Available	0	5
ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos	Apr 9, 2024	Action RecognitionAction Recognition In Videos	CodeCode Available	0	5
RPAN: An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos	Oct 22, 2017	Action RecognitionAction Recognition In Videos	CodeCode Available	0	5
Self-Supervised MultiModal Versatile Networks	Jun 29, 2020	Action Recognition In VideosAudio Classification	CodeCode Available	0	5
Learning Latent Sub-events in Activity Videos Using Temporal Attention Filters	May 26, 2016	Action ClassificationAction Recognition In Videos	CodeCode Available	0	5
Robust Real-Time Violence Detection in Video Using CNN And LSTM	Mar 27, 2019	Action Recognition In VideosVideo Classification	CodeCode Available	0	5
Pose And Joint-Aware Action Recognition	Oct 16, 2020	Action ClassificationAction Recognition	CodeCode Available	0	5
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection	Mar 22, 2017	Action DetectionAction Recognition In Videos	CodeCode Available	0	5
Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition	Nov 29, 2017	Action RecognitionAction Recognition In Videos	CodeCode Available	0	5
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles	Jun 1, 2023	Action ClassificationAction Recognition	CodeCode Available	0	5
Out-of-Distribution Detection for Generalized Zero-Shot Action Recognition	Apr 18, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available	0	5
HaltingVT: Adaptive Token Halting Transformer for Efficient Video Recognition	Jan 10, 2024	Action RecognitionAction Recognition In Videos	CodeCode Available	0	5
Gating Revisited: Deep Multi-layer RNNs That Can Be Trained	Nov 25, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available	0	5

Show:10 25 50

← PrevPage 2 of 5Next →

All datasets Jester (Gesture Recognition)PKU-MMD UCF101 Something-Something V2 Kinetics 400 AVA v2.2 FS-Something-Something V2-Full FS-Something-Something V2-Small Sports-1M THUMOS14 ActivityNet AVA v2.1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CPNet Res34, 5 CP	Val	96.7	—	Unverified
2	STM (Resnet-50, 16 frames)	Val	96.7	—	Unverified
3	MFNet	Val	96.68	—	Unverified
4	DIN	Val	95.31	—	Unverified
5	MultiScale TRN	Val	95.31	—	Unverified
6	convSTAR	Val	92.7	—	Unverified
7	3D-SqueezeNet	Val	90.77	—	Unverified
8	3D-ShuffleNetV2 0.25x	Val	86.91	—	Unverified
9	3D-MobileNetV2 0.2x	Val	86.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DSCNet (RGB + Pose)	X-Sub	97.4	—	Unverified
2	MMNet	X-Sub	97.4	—	Unverified
3	EPAM-Net	X-Sub	96.2	—	Unverified
4	DVANet (RGB only)	X-Sub	95.8	—	Unverified
5	TSMF	X-Sub	95.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	3-fold Accuracy	96.2	—	Unverified
2	3D-SqueezeNet	3-fold Accuracy	74.94	—	Unverified
3	3D-ShuffleNetV2 0.25x	3-fold Accuracy	56.52	—	Unverified
4	3D-MobileNetV2 0.2x	3-fold Accuracy	55.56	—	Unverified
5	Baseline UCF101	3-fold Accuracy	43.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top-1 Accuracy	64.2	—	Unverified
2	CPNet Res34, 5 CP	Top-1 Accuracy	57.65	—	Unverified
3	2-Stream TRN	Top-1 Accuracy	55.52	—	Unverified
4	DIN	Top-1 Accuracy	34.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	86.5	—	Unverified
2	ActionCLIP (ViT-B/16)	Top-1 Accuracy	83.8	—	Unverified
3	Frozen Backbone, SwinV2-G-ext22K (Video-Swin)	Top-1 Accuracy	81.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	20.2	—	Unverified
2	VideoMAE V2	mAP (Val)	18.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	49.2	—	Unverified
2	OTAM[3]++	Top-1 Accuracy(5-Way-1-Shot)	42.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	39.8	—	Unverified
2	CMN[35]	Top-1 Accuracy(5-Way-1-Shot)	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Video hit@1	74.8	—	Unverified
2	LSTM +Pretrained on YT-8M	Video hit@1	65.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Single-stream R-C3D (two-way buffer)	mAP@0.1	54.5	—	Unverified
2	Single-stream R-C3D (one-way buffer)	mAP@0.1	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM + Pretrained on YT-8M	mAP	75.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	19.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	Average accuracy of 3 splits	72.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	87.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Clip Hit@1	49.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	2D-3D-Softargmax (RGB only)	Accuracy (CS)	85.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top 1 Accuracy	50.7	—	Unverified