Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 1477 papers

Title	Date	Tasks	Status
MM-SEAL: A Large-scale Video Dataset of Multi-person Multi-grained Spatio-temporally Action Localization	Apr 6, 2022	Action LocalizationAction Recognition	—Unverified
Second-order Temporal Pooling for Action Recognition	Apr 23, 2017	Action RecognitionTemporal Action Localization	—Unverified
Seeing What You're Told: Sentence-Guided Activity Recognition In Video	Aug 19, 2013	Action RecognitionActivity Recognition	—Unverified
Segmental Spatiotemporal CNNs for Fine-grained Action Segmentation	Feb 9, 2016	Action ClassificationAction Recognition	—Unverified
Self-Attention Network for Skeleton-based Human Action Recognition	Dec 18, 2019	Action RecognitionSkeleton Based Action Recognition	—Unverified
Self-Supervised 3D Action Representation Learning with Skeleton Cloud Colorization	Apr 18, 2023	3D Action RecognitionAction Recognition	—Unverified
Self-supervised Learning of Audio Representations from Audio-Visual Data using Spatial Alignment	Jun 2, 2022	Acoustic Scene ClassificationAction Recognition	—Unverified
Self-Supervised Spatiotemporal Feature Learning via Video Rotation Prediction	Nov 28, 2018	Action RecognitionPrediction	—Unverified
Self-Supervised Spatiotemporal Learning via Video Clip Order Prediction	Jun 1, 2019	Action RecognitionRetrieval	—Unverified
Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles	Nov 24, 2018	Action RecognitionColorization	—Unverified
Self-Supervised Video Representation Learning With Odd-One-Out Networks	Nov 21, 2016	Action ClassificationAction Recognition	—Unverified
Self-Supervised Video Representation Learning with Meta-Contrastive Network	Aug 19, 2021	Action RecognitionContrastive Learning	—Unverified
Semantically Video Coding: Instill Static-Dynamic Clues into Structured Bitstream for AI Tasks	Jan 25, 2022	Action RecognitionObject	—Unverified
Semantic Embedding Space for Zero-Shot Action Recognition	Feb 5, 2015	Action RecognitionAttribute	—Unverified
Semantic-guided Cross-Modal Prompt Learning for Skeleton-based Zero-shot Action Recognition	Jan 1, 2025	Action RecognitionComputational Efficiency	—Unverified
Semantic Image Networks for Human Action Recognition	Jan 21, 2019	Action RecognitionClustering	—Unverified
Semantic Labeling of Human Action For Visually Impaired And Blind People Scene Interaction	Jan 12, 2022	Action RecognitionTemporal Action Localization	—Unverified
Semi-Coupled Two-Stream Fusion ConvNets for Action Recognition at Extremely Low Resolutions	Oct 12, 2016	Action RecognitionTemporal Action Localization	—Unverified
Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup	Mar 4, 2025	Action RecognitionTemporal Action Localization	—Unverified
Semi-supervised Fisher vector network	Jan 13, 2018	Action RecognitionClassification	—Unverified
Semi-Supervised Pipe Video Temporal Defect Interval Localization	Jul 21, 2024	Action LocalizationTemporal Action Localization	—Unverified
Sequence Summarization Using Order-constrained Kernelized Feature Subspaces	May 24, 2017	Action RecognitionRiemannian optimization	—Unverified
Sequential Deep Trajectory Descriptor for Action Recognition with Three-stream CNN	Sep 10, 2016	Action RecognitionTemporal Action Localization	—Unverified
Shrinkage Optimized Directed Information using Pictorial Structures for Action Recognition	Apr 12, 2014	Action RecognitionTemporal Action Localization	—Unverified
Shuffle and Attend: Video Domain Adaptation	Aug 1, 2020	Action RecognitionDomain Adaptation	—Unverified
Shuffle and Learn: Unsupervised Learning using Temporal Order Verification	Mar 28, 2016	Action RecognitionPose Estimation	—Unverified
Signal Alignment for Humanoid Skeletons via the Globally Optimal Reparameterization Algorithm	Jul 18, 2018	Action RecognitionComputational Efficiency	—Unverified
Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation	Jul 17, 2023	Action RecognitionDomain Adaptation	—Unverified
Simplex-Based 3D Spatio-Temporal Feature Description for Action Recognition	Jun 1, 2014	Action RecognitionTemporal Action Localization	—Unverified
Single Image Action Recognition by Predicting Space-Time Saliency	May 12, 2017	Action ClassificationAction Recognition	—Unverified
Single Image Action Recognition using Semantic Body Part Actions	Dec 14, 2016	Action RecognitionTemporal Action Localization	—Unverified
SITAR: Semi-supervised Image Transformer for Action Recognition	Sep 4, 2024	Action RecognitionContrastive Learning	—Unverified
Skeletal Movement to Color Map: A Novel Representation for 3D Action Recognition with Inception Residual Networks	Jul 18, 2018	3D Action RecognitionAction Recognition	—Unverified
Skeletal quads: Human action recognition using joint quadruples	Aug 24, 2014	Action RecognitionSkeleton Based Action Recognition	—Unverified
Skeleton-based Action Recognition of People Handling Objects	Jan 21, 2019	Action RecognitionObject	—Unverified
Skeleton-Based Action Recognition Using Spatio-Temporal LSTM Network with Trust Gates	Jun 26, 2017	Action RecognitionOne-Shot 3D Action Recognition	—Unverified
Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep cnn	Apr 19, 2017	Action Recognitionimage-classification	—Unverified
Skeleton Based Action Recognition using a Stacked Denoising Autoencoder with Constraints of Privileged Information	Mar 12, 2020	Action RecognitionDenoising	—Unverified
Skeleton-based Action Recognition Using LSTM and CNN	Jul 6, 2017	Action AnalysisAction Recognition	—Unverified
Skeleton-Based Action Recognition with Synchronous Local and Non-local Spatio-temporal Learning and Frequency Attention	Nov 10, 2018	Action RecognitionSkeleton Based Action Recognition	—Unverified
Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning	May 7, 2018	Action RecognitionGraph Neural Network	—Unverified
Skeleton based Activity Recognition by Fusing Part-wise Spatio-temporal and Attention Driven Residues	Dec 2, 2019	3D Action RecognitionAction Recognition	—Unverified
Skeleton-based Human Action Recognition via Convolutional Neural Networks (CNN)	Jan 31, 2023	Action RecognitionComputational Efficiency	—Unverified
Skeleton-Based Human Action Recognition with Global Context-Aware Attention LSTM Networks	Jul 18, 2017	Action RecognitionSkeleton Based Action Recognition	—Unverified
Skeleton-Based Mutually Assisted Interacted Object Localization and Human Action Recognition	Oct 28, 2021	Action RecognitionObject	—Unverified
Relational Network for Skeleton-Based Action Recognition	May 7, 2018	Action RecognitionSkeleton Based Action Recognition	—Unverified
Skeleton based Zero Shot Action Recognition in Joint Pose-Language Semantic Space	Nov 26, 2019	Action RecognitionTemporal Action Localization	—Unverified
Skeleton Boxes: Solving skeleton based action detection with a single deep convolutional neural network	Apr 19, 2017	Action DetectionAction Recognition	—Unverified
Skeleton Cloud Colorization for Unsupervised 3D Action Representation Learning	Aug 4, 2021	3D Action RecognitionAction Recognition	—Unverified
SkeletonVis: Interactive Visualization for Understanding Adversarial Attacks on Human Action Recognition Models	Jan 26, 2021	Action RecognitionTemporal Action Localization	—Unverified

Show:10 25 50

← PrevPage 16 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified