Action Recognition In Videos

Action Recognition in Videos is a task in computer vision and pattern recognition where the goal is to identify and categorize human actions performed in a video sequence. The task involves analyzing the spatiotemporal dynamics of the actions and mapping them to a predefined set of action classes, such as running, jumping, or swimming.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 124 papers

Title	Date	Tasks	Status	Score
Learning Video Representations from Correspondence Proposals	May 20, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Learn to cycle: Time-consistent feature discovery for action recognition	Jun 15, 2020	Action ClassificationAction Recognition	CodeCode Available	5
MMTM: Multimodal Transfer Module for CNN Fusion	Nov 20, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition	Nov 29, 2017	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Out-of-Distribution Detection for Generalized Zero-Shot Action Recognition	Apr 18, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Pose And Joint-Aware Action Recognition	Oct 16, 2020	Action ClassificationAction Recognition	CodeCode Available	5
R-C3D: Region Convolutional 3D Network for Temporal Activity Detection	Mar 22, 2017	Action DetectionAction Recognition In Videos	CodeCode Available	5
Representation Flow for Action Recognition	Oct 2, 2018	Action ClassificationAction Recognition	CodeCode Available	5
Resource Efficient 3D Convolutional Neural Networks	Apr 4, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Robust Real-Time Violence Detection in Video Using CNN And LSTM	Mar 27, 2019	Action Recognition In VideosVideo Classification	CodeCode Available	5
RPAN: An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos	Oct 22, 2017	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Self-Supervised MultiModal Versatile Networks	Jun 29, 2020	Action Recognition In VideosAudio Classification	CodeCode Available	5
Temporal Relational Reasoning in Videos	Nov 22, 2017	Action ClassificationAction Recognition	CodeCode Available	5
Towards Improving Spatiotemporal Action Recognition in Videos	Dec 15, 2020	Action DetectionAction Localization	CodeCode Available	5
Two-Stream Convolutional Networks for Action Recognition in Videos	Jun 9, 2014	Action ClassificationAction Recognition	CodeCode Available	5
Two-stream Flow-guided Convolutional Attention Networks for Action Recognition	Aug 30, 2017	Action RecognitionAction Recognition In Videos	CodeCode Available	5
UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild	Dec 3, 2012	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer	Feb 17, 2023	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Video Transformer Network	Feb 1, 2021	Action ClassificationAction Recognition	CodeCode Available	5
What Makes Training Multi-Modal Classification Networks Hard?	May 29, 2019	Action ClassificationAction Recognition	CodeCode Available	5
You Only Watch Once: A Unified CNN Architecture for Real-Time Spatiotemporal Action Localization	Nov 15, 2019	Actin DetectionAction Detection	CodeCode Available	5
Dynamic Inference: A New Approach Toward Efficient Video Action Recognition	Feb 9, 2020	Action RecognitionAction Recognition In Videos	—Unverified	0
Action Class Relation Detection and Classification Across Multiple Video Datasets	Aug 15, 2023	Action RecognitionAction Recognition In Videos	—Unverified	0
A Multi-Stream Bi-Directional Recurrent Neural Network for Fine-Grained Action Detection	Jun 1, 2016	Action DetectionAction Recognition	—Unverified	0
Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web	Dec 22, 2015	Action RecognitionAction Recognition In Videos	—Unverified	0

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets Jester (Gesture Recognition)PKU-MMD UCF101 Something-Something V2 Kinetics 400 AVA v2.2 FS-Something-Something V2-Full FS-Something-Something V2-Small Sports-1M THUMOS14 ActivityNet AVA v2.1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CPNet Res34, 5 CP	Val	96.7	—	Unverified
2	STM (Resnet-50, 16 frames)	Val	96.7	—	Unverified
3	MFNet	Val	96.68	—	Unverified
4	DIN	Val	95.31	—	Unverified
5	MultiScale TRN	Val	95.31	—	Unverified
6	convSTAR	Val	92.7	—	Unverified
7	3D-SqueezeNet	Val	90.77	—	Unverified
8	3D-ShuffleNetV2 0.25x	Val	86.91	—	Unverified
9	3D-MobileNetV2 0.2x	Val	86.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DSCNet (RGB + Pose)	X-Sub	97.4	—	Unverified
2	MMNet	X-Sub	97.4	—	Unverified
3	EPAM-Net	X-Sub	96.2	—	Unverified
4	DVANet (RGB only)	X-Sub	95.8	—	Unverified
5	TSMF	X-Sub	95.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	3-fold Accuracy	96.2	—	Unverified
2	3D-SqueezeNet	3-fold Accuracy	74.94	—	Unverified
3	3D-ShuffleNetV2 0.25x	3-fold Accuracy	56.52	—	Unverified
4	3D-MobileNetV2 0.2x	3-fold Accuracy	55.56	—	Unverified
5	Baseline UCF101	3-fold Accuracy	43.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top-1 Accuracy	64.2	—	Unverified
2	CPNet Res34, 5 CP	Top-1 Accuracy	57.65	—	Unverified
3	2-Stream TRN	Top-1 Accuracy	55.52	—	Unverified
4	DIN	Top-1 Accuracy	34.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	86.5	—	Unverified
2	ActionCLIP (ViT-B/16)	Top-1 Accuracy	83.8	—	Unverified
3	Frozen Backbone, SwinV2-G-ext22K (Video-Swin)	Top-1 Accuracy	81.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	20.2	—	Unverified
2	VideoMAE V2	mAP (Val)	18.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	49.2	—	Unverified
2	OTAM[3]++	Top-1 Accuracy(5-Way-1-Shot)	42.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ITANet	Top-1 Accuracy(5-Way-1-Shot)	39.8	—	Unverified
2	CMN[35]	Top-1 Accuracy(5-Way-1-Shot)	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Video hit@1	74.8	—	Unverified
2	LSTM +Pretrained on YT-8M	Video hit@1	65.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Single-stream R-C3D (two-way buffer)	mAP@0.1	54.5	—	Unverified
2	Single-stream R-C3D (one-way buffer)	mAP@0.1	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM + Pretrained on YT-8M	mAP	75.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	YOWO+LFB*	mAP (Val)	19.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (ImageNet+Kinetics pretrain)	Average accuracy of 3 splits	72.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Florence	Top-1 Accuracy	87.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	G-Blend	Clip Hit@1	49.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	2D-3D-Softargmax (RGB only)	Accuracy (CS)	85.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STM (16 frames, ImageNet pretraining)	Top 1 Accuracy	50.7	—	Unverified