Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1200 of 1477 papers

Title	Date	Tasks	Status
Boundary Content Graph Neural Network for Temporal Action Proposal Generation	Aug 4, 2020	Action DetectionAction Understanding	—Unverified
Boundary Uncertainty in a Single-Stage Temporal Action Localization Network	Aug 25, 2020	Action LocalizationTemporal Action Localization	—Unverified
Bregman Divergences for Infinite Dimensional Covariance Matrices	Mar 18, 2014	Action RecognitionGeneral Classification	—Unverified
Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer	Apr 21, 2025	Action LocalizationTemporal Action Localization	—Unverified
Bridging the gap between Human Action Recognition and Online Action Detection	Jan 21, 2021	Action DetectionAction Recognition	—Unverified
Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach	May 8, 2023	Action RecognitionKnowledge Graph Completion	—Unverified
Bullying10K: A Large-Scale Neuromorphic Dataset towards Privacy-Preserving Bullying Recognition	Jun 20, 2023	Action LocalizationAction Recognition	—Unverified
CAG-QIL: Context-Aware Actionness Grouping via Q Imitation Learning for Online Temporal Action Localization	Jan 1, 2021	Action LocalizationImitation Learning	—Unverified
CAMREP- Concordia Action and Motion Repository	Oct 6, 2017	Action RecognitionTemporal Action Localization	—Unverified
Can Humans Fly? Action Understanding With Multiple Classes of Actors	Jun 1, 2015	Action RecognitionAction Understanding	—Unverified
Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks?	Nov 13, 2024	Action LocalizationTemporal Action Localization	—Unverified
Canonical Correlation Analysis for Misaligned Satellite Image Change Detection	Dec 21, 2018	Action RecognitionChange Detection	—Unverified
Cascaded Interactional Targeting Network for Egocentric Video Analysis	Jun 1, 2016	Action RecognitionForeground Segmentation	—Unverified
Cascaded Pyramid Mining Network for Weakly Supervised Temporal Action Localization	Oct 28, 2018	Action LocalizationGeneral Classification	—Unverified
Cascade Evidential Learning for Open-World Weakly-Supervised Temporal Action Localization	Jan 1, 2023	Action LocalizationOpen Set Learning	—Unverified
Category-Blind Human Action Recognition: A Practical Recognition System	Dec 1, 2015	Action RecognitionTemporal Action Localization	—Unverified
Unifying Graph Embedding Features with Graph Convolutional Networks for Skeleton-based Action Recognition	Mar 6, 2020	Action RecognitionGraph Embedding	—Unverified
CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization	Aug 19, 2020	Action DetectionAction Localization	—Unverified
Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization	Apr 18, 2025	Action LocalizationAnomaly Detection	—Unverified
CHAM: action recognition using convolutional hierarchical attention model	May 9, 2017	Action RecognitionImage Captioning	—Unverified
Classifying Object Manipulation Actions based on Grasp-types and Motion-Constraints	Jun 20, 2018	Action RecognitionObject	—Unverified
Classifying Soccer Ball-on-Goal Position Through Kicker Shooting Action	Dec 23, 2023	Action RecognitionPosition	—Unverified
CLIP-AE: CLIP-assisted Cross-view Audio-Visual Enhancement for Unsupervised Temporal Action Localization	May 29, 2025	Action LocalizationInformation Retrieval	—Unverified
CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition	Jan 15, 2023	Action RecognitionTemporal Action Localization	—Unverified
CNN-Based Action Recognition and Pose Estimation for Classifying Animal Behavior from Videos: A Survey	Jan 15, 2023	Action RecognitionPose Estimation	—Unverified
CNN-based Action Recognition and Supervised Domain Adaptation on 3D Body Skeletons via Kernel Feature Maps	Jun 24, 2018	Action RecognitionDomain Adaptation	—Unverified
Coding Kendall's Shape Trajectories for 3D Action Recognition	Jun 1, 2018	3D Action RecognitionAction Recognition	—Unverified
Collaborative Distillation in the Parameter and Spectrum Domains for Video Action Recognition	Sep 15, 2020	Action RecognitionKnowledge Distillation	—Unverified
Collecting and Annotating the Large Continuous Action Dataset	Nov 18, 2015	Action RecognitionTemporal Action Localization	—Unverified
Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action Recognition	Aug 3, 2022	Action RecognitionAttribute	—Unverified
Combining ConvNets with Hand-Crafted Features for Action Recognition Based on an HMM-SVM Classifier	Feb 1, 2016	Action RecognitionTemporal Action Localization	—Unverified
Combining Deep Learning Classifiers for 3D Action Recognition	Apr 21, 2020	3D Action RecognitionAction Recognition	—Unverified
Combining Spatio-Temporal Appearance Descriptors and Optical Flow for Human Action Recognition in Video Data	Oct 1, 2013	Action RecognitionOptical Flow Estimation	—Unverified
Comparative Evaluation of Action Recognition Methods via Riemannian Manifolds, Fisher Vectors and GMMs: Ideal and Challenging Conditions	Feb 4, 2016	Action RecognitionTemporal Action Localization	—Unverified
Complementary Boundary Generator with Scale-Invariant Relation Modeling for Temporal Action Localization: Submission to ActivityNet Challenge 2020	Jul 20, 2020	Action LocalizationDiversity	—Unverified
Complex Human Action Recognition in Live Videos Using Hybrid FR-DL Method	Jul 6, 2020	Action RecognitionArticles	—Unverified
Complex Video Action Reasoning via Learnable Markov Logic Network	Jan 1, 2022	Action RecognitionHuman-Object Interaction Detection	—Unverified
Composable Augmentation Encoding for Video Representation Learning	Apr 1, 2021	Action RecognitionContrastive Learning	—Unverified
Compressed Video Action Recognition with Refined Motion Vector	Oct 6, 2019	Action RecognitionOptical Flow Estimation	—Unverified
Concurrence-Aware Long Short-Term Sub-Memories for Person-Person Action Recognition	Jun 3, 2017	Action RecognitionTemporal Action Localization	—Unverified
Context-Aware Cross-Attention for Skeleton-Based Human Action Recognition	Jan 20, 2020	Action RecognitionComputational Efficiency	—Unverified
Context Aware Graph Convolution for Skeleton-Based Action Recognition	Jun 1, 2020	Action RecognitionSkeleton Based Action Recognition	—Unverified
Context-based Object Viewpoint Estimation: A 2D Relational Approach	Apr 21, 2017	Action RecognitionObject	—Unverified
Context-LSTM: a robust classifier for video detection on UCF101	Mar 13, 2022	Action DetectionAction Recognition	—Unverified
Continuous Action Recognition Based on Sequence Alignment	Jun 2, 2014	Action RecognitionDynamic Time Warping	—Unverified
Continuous Human Action Recognition for Human-Machine Interaction: A Review	Feb 26, 2022	Action RecognitionAction Segmentation	—Unverified
Continuous Video to Simple Signals for Swimming Stroke Detection with Convolutional Neural Networks	May 28, 2017	Action RecognitionTemporal Action Localization	—Unverified
Contrastive Language-Action Pre-training for Temporal Localization	Apr 26, 2022	Action LocalizationContrastive Learning	—Unverified
Convolutional Architecture Exploration for Action Recognition and Image Classification	Dec 23, 2015	Action RecognitionClassification	—Unverified
Co-occurrence Feature Learning for Skeleton based Action Recognition using Regularized Deep LSTM Networks	Mar 24, 2016	Action RecognitionSkeleton Based Action Recognition	—Unverified

Show:10 25 50

← PrevPage 24 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified