Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1477 papers

Title	Date	Tasks	Status
From CNNs to Transformers in Multimodal Human Action Recognition: A Survey	May 22, 2024	Action RecognitionTemporal Action Localization	—Unverified
Efficient Temporal Sequence Comparison and Classification Using Gram Matrix Embeddings on a Riemannian Manifold	Jun 1, 2016	3D Action RecognitionAction Recognition	—Unverified
Egocentric Hand Detection Via Dynamic Region Growing	Nov 10, 2017	Action RecognitionGesture Recognition	—Unverified
Egocentric Hand Track and Object-based Human Action Recognition	May 2, 2019	Action RecognitionObject	—Unverified
From Pose to Activity: Surveying Datasets and Introducing CONVERSE	Nov 18, 2015	Action RecognitionTemporal Action Localization	—Unverified
EgoPCA: A New Framework for Egocentric Hand-Object Interaction Understanding	Sep 5, 2023	Action RecognitionTemporal Action Localization	—Unverified
Eigen Evolution Pooling for Human Action Recognition	Aug 17, 2017	Action RecognitionTemporal Action Localization	—Unverified
Elastic Functional Coding of Human Actions: From Vector-Fields to Latent Variables	Jun 1, 2015	Action RecognitionClustering	—Unverified
ElderSim: A Synthetic Data Generation Platform for Human Action Recognition in Eldercare Applications	Oct 28, 2020	Action RecognitionSynthetic Data Generation	—Unverified
Bio-Inspired Human Action Recognition using Hybrid Max-Product Neuro-Fuzzy Classifier and Quantum-Behaved PSO	Sep 13, 2015	Action RecognitionForm	—Unverified
Emotion-Based Crowd Representation for Abnormality Detection	Jul 26, 2016	Action RecognitionAnomaly Detection	—Unverified
Enabling Weakly-Supervised Temporal Action Localization from On-Device Learning of the Video Stream	Aug 25, 2022	Action DetectionAction Localization	—Unverified
Curvature: A signature for Action Recognition in Video Sequences	Apr 30, 2019	Action RecognitionFew-Shot Learning	—Unverified
A Review on Coarse to Fine-Grained Animal Action Recognition	Jun 1, 2025	Action RecognitionAnimal Action Recognition	—Unverified
Action Spotting and Precise Event Detection in Sports: Datasets, Methods, and Challenges	May 6, 2025	Action LocalizationAction Spotting	—Unverified
Cross-View Action Recognition via a Continuous Virtual Path	Jun 1, 2013	Action RecognitionTemporal Action Localization	—Unverified
Cross-view Action Modeling, Learning and Recognition	May 12, 2014	Action RecognitionTemporal Action Localization	—Unverified
Enhanced skeleton visualization for view invariant human action recognition	Aug 1, 2017	Action RecognitionSkeleton Based Action Recognition	—Unverified
Enhanced Spatiotemporal Prediction Using Physical-guided And Frequency-enhanced Recurrent Neural Networks	May 23, 2024	Action RecognitionPrediction	—Unverified
A real-time algorithm for human action recognition in RGB and thermal video	Apr 4, 2023	Action RecognitionGPU	—Unverified
Cross-Video Contextual Knowledge Exploration and Exploitation for Ambiguity Reduction in Weakly Supervised Temporal Action Localization	Aug 24, 2023	Action LocalizationContrastive Learning	—Unverified
Boosting Point-Supervised Temporal Action Localization through Integrating Query Reformation and Optimal Transport	Jan 1, 2025	Action LocalizationMultiple Instance Learning	—Unverified
Ensemble One-dimensional Convolution Neural Networks for Skeleton-based Action Recognition	Jan 8, 2018	Action RecognitionDiversity	—Unverified
Ensembles of Deep Neural Networks for Action Recognition in Still Images	Mar 22, 2020	Action ClassificationAction Recognition	—Unverified
Cross-Stage Transformer for Video Learning	Sep 29, 2021	Action RecognitionTemporal Action Localization	—Unverified
Actions in the Eye: Dynamic Gaze Datasets and Learnt Saliency Models for Visual Recognition	Dec 29, 2013	Action RecognitionTemporal Action Localization	—Unverified
Application-Driven AI Paradigm for Human Action Recognition	Sep 30, 2022	Action ClassificationAction Recognition	—Unverified
Cross-Modal Message Passing for Two-stream Fusion	Apr 30, 2019	Action RecognitionGeneral Classification	—Unverified
Evaluating the Effectiveness of Automated Identity Masking (AIM) Methods with Human Perception and a Deep Convolutional Neural Network (CNN)	Feb 19, 2019	De-identificationEdge Detection	—Unverified
Evaluating Transformers for Lightweight Action Recognition	Nov 18, 2021	Action RecognitionTemporal Action Localization	—Unverified
Evaluation of Color STIPs for Human Action Recognition	Jun 1, 2013	Action RecognitionTemporal Action Localization	—Unverified
Event-based Action Recognition Using Timestamp Image Encoding Network	Sep 28, 2020	Action RecognitionGesture Recognition	—Unverified
Action Classification via Concepts and Attributes	May 25, 2016	Action ClassificationAction Recognition	—Unverified
Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization	Jul 14, 2022	Action LocalizationClassification	—Unverified
Boundary Uncertainty in a Single-Stage Temporal Action Localization Network	Aug 25, 2020	Action LocalizationTemporal Action Localization	—Unverified
Evolution-Preserving Dense Trajectory Descriptors	Feb 14, 2017	Action RecognitionDeep Learning	—Unverified
Bregman Divergences for Infinite Dimensional Covariance Matrices	Mar 18, 2014	Action RecognitionGeneral Classification	—Unverified
EXMOVES: Classifier-based Features for Scalable Action Recognition	Dec 20, 2013	Action RecognitionGeneral Classification	—Unverified
Expanded Parts Model for Human Attribute and Action Recognition in Still Images	Jun 1, 2013	Action RecognitionAction Recognition In Still Images	—Unverified
Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer	Apr 21, 2025	Action LocalizationTemporal Action Localization	—Unverified
fpgaHART: A toolflow for throughput-oriented acceleration of 3D CNNs for HAR onto FPGAs	May 31, 2023	Action RecognitionAutonomous Vehicles	—Unverified
Exploiting Language Models for Visual Recognition	Oct 1, 2013	Language ModellingMachine Translation	—Unverified
Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition	Jun 27, 2018	Action RecognitionTemporal Action Localization	—Unverified
Exploiting Structure Sparsity for Covariance-based Visual Representation	Oct 27, 2016	Action RecognitionTemporal Action Localization	—Unverified
From Synsets to Videos: Enriching ItalWordNet Multimodally	May 1, 2014	Action RecognitionLanguage Acquisition	—Unverified
Exploring Denoised Cross-Video Contrast for Weakly-Supervised Temporal Action Localization	Jan 1, 2022	Action LocalizationContrastive Learning	—Unverified
Action Sensitivity Learning for Temporal Action Localization	May 25, 2023	Action LocalizationMoment Queries	—Unverified
Exploring Feature Representation and Training strategies in Temporal Action Localization	May 25, 2019	Action LocalizationTemporal Action Localization	—Unverified
Exploring Frame Segmentation Networks for Temporal Action Localization	Feb 14, 2019	Action LocalizationOpen-Ended Question Answering	—Unverified
Flip-Invariant Motion Representation	Oct 1, 2017	Action ClassificationAction Recognition	—Unverified

Show:10 25 50

← PrevPage 10 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified