Action Recognition

Action Recognition is a computer vision task that involves recognizing human actions in videos or images. The goal is to classify and categorize the actions being performed in the video or image into a predefined set of action classes.

In the video domain, it is an open question whether training an action classification network on a sufficiently large dataset, will give a similar boost in performance when applied to a different temporal task or dataset. The challenges of building video datasets has meant that most popular benchmarks for action recognition are small, having on the order of 10k videos.

Please note some benchmarks may be located in the Action Classification or Video Classification tasks, e.g. Kinetics-400.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2601–2625 of 2759 papers

Title	Date	Tasks	Status
Bayesian Non-Parametric Inference for Manifold Based MoCap Representation	Dec 1, 2015	Action RecognitionGeneral Classification	—Unverified
Beyond Covariance: Feature Representation With Nonlinear Kernel Matrices	Dec 1, 2015	Action RecognitionTemporal Action Localization	—Unverified
Recursive Frechet Mean Computation on the Grassmannian and its Applications to Computer Vision	Dec 1, 2015	Action RecognitionFace Recognition	—Unverified
Learning Ensembles of Potential Functions for Structured Prediction With Latent Variables	Dec 1, 2015	Action RecognitionActivity Recognition	—Unverified
Action Detection by Implicit Intentional Motion Clustering	Dec 1, 2015	Action DetectionAction Recognition	—Unverified
Actionness-Assisted Recognition of Actions	Dec 1, 2015	Action DetectionAction Recognition	—Unverified
Per-Sample Kernel Adaptation for Visual Recognition and Grouping	Dec 1, 2015	Action RecognitionAction Recognition In Videos	—Unverified
Unsupervised Domain Adaptation for Zero-Shot Learning	Dec 1, 2015	Action RecognitionDomain Adaptation	—Unverified
Fine-Grain Annotation of Cricket Videos	Nov 24, 2015	Action RecognitionRetrieval	—Unverified
Delving Deeper into Convolutional Networks for Learning Video Representations	Nov 19, 2015	Action RecognitionDecoder	CodeCode Available
Collecting and Annotating the Large Continuous Action Dataset	Nov 18, 2015	Action RecognitionTemporal Action Localization	—Unverified
From Pose to Activity: Surveying Datasets and Introducing CONVERSE	Nov 18, 2015	Action RecognitionTemporal Action Localization	—Unverified
Hierarchical Spatial Sum-Product Networks for Action Recognition in Still Images	Nov 17, 2015	Action RecognitionAction Recognition In Still Images	—Unverified
Handcrafted Local Features are Convolutional Neural Networks	Nov 16, 2015	Action RecognitionOptical Flow Estimation	—Unverified
Learning Mid-level Words on Riemannian Manifold for Action Recognition	Nov 16, 2015	Action RecognitionClustering	—Unverified
Transductive Zero-Shot Action Recognition by Word-Vector Embedding	Nov 13, 2015	Action RecognitionAttribute	—Unverified
Action Recognition using Visual Attention	Nov 12, 2015	Action RecognitionAction Recognition In Videos	CodeCode Available
Hand-Object Interaction and Precise Localization in Transitive Action Recognition	Nov 12, 2015	Action RecognitionAction Recognition In Still Images	—Unverified
Improving performance of recurrent neural network with relu nonlinearity	Nov 12, 2015	Action RecognitionTemporal Action Localization	—Unverified
Online Action Recognition based on Incremental Learning of Weighted Covariance Descriptors	Nov 10, 2015	Action RecognitionIncremental Learning	—Unverified
Pooling the Convolutional Layers in Deep ConvNets for Action Recognition	Nov 6, 2015	Action Recognitionimage-classification	—Unverified
Action recognition from depth maps using deep convolutional neural networks	Nov 1, 2015	Action RecognitionMultimodal Activity Recognition	—Unverified
Beyond Spatial Pyramid Matching: Space-time Extended Descriptor for Action Recognition	Oct 15, 2015	Action RecognitionDiversity	—Unverified
A Novel Approach for Human Action Recognition from Silhouette Images	Oct 15, 2015	Action DetectionAction Recognition	—Unverified
Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks	Oct 2, 2015	Action Recognitionimage-classification	—Unverified

Show:10 25 50

← PrevPage 105 of 111Next →

All datasets Something-Something V2 UCF101 HMDB-51 Something-Something V1 AVA v2.2 EPIC-KITCHENS-100 NTU RGB+D NTU RGB+D 120 Diving-48 ActivityNet AVA v2.1 H2O (2 Hands and Objects)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MViTv2-B (IN-21K + Kinetics400 pretrain)	Top-5 Accuracy	93.4	—	Unverified
2	RSANet-R50 (8+16 frames, ImageNet pretrained, 2 clips)	Top-5 Accuracy	91.1	—	Unverified
3	MVD (Kinetics400 pretrain, ViT-H, 16 frame)	Top-1 Accuracy	77.3	—	Unverified
4	DejaVid	Top-1 Accuracy	77.2	—	Unverified
5	InternVideo	Top-1 Accuracy	77.2	—	Unverified
6	InternVideo2-1B	Top-1 Accuracy	77.1	—	Unverified
7	VideoMAE V2-g	Top-1 Accuracy	77	—	Unverified
8	MVD (Kinetics400 pretrain, ViT-L, 16 frame)	Top-1 Accuracy	76.7	—	Unverified
9	Hiera-L (no extra data)	Top-1 Accuracy	76.5	—	Unverified
10	TubeViT-L	Top-1 Accuracy	76.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FTP-UniFormerV2-L/14	3-fold Accuracy	99.7	—	Unverified
2	OmniVec2	3-fold Accuracy	99.6	—	Unverified
3	VideoMAE V2-g	3-fold Accuracy	99.6	—	Unverified
4	OmniVec	3-fold Accuracy	99.6	—	Unverified
5	BIKE	3-fold Accuracy	98.8	—	Unverified
6	SMART	3-fold Accuracy	98.64	—	Unverified
7	OmniSource (SlowOnly-8x8-R101-RGB + I3D-Flow)	3-fold Accuracy	98.6	—	Unverified
8	PERF-Net (multi-distilled S3D)	3-fold Accuracy	98.6	—	Unverified
9	ZeroI2V ViT-L/14	3-fold Accuracy	98.6	—	Unverified
10	LGD-3D Two-stream	3-fold Accuracy	98.2	—	Unverified