Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1477 papers

Title	Date	Tasks	Status
Human Action Recognition with Deep Temporal Pyramids	May 2, 2019	Action RecognitionTemporal Action Localization	—Unverified
Human Action Recognition with Multi-Laplacian Graph Convolutional Networks	Oct 15, 2019	Action RecognitionTemporal Action Localization	—Unverified
Human Action Recognition without Human	Aug 29, 2016	Action AnalysisAction Recognition	—Unverified
A Novel Approach for Robust Multi Human Action Recognition and Summarization based on 3D Convolutional Neural Networks	Jul 25, 2019	Action DetectionAction Recognition	—Unverified
Graph Convolutional Module for Temporal Action Localization in Videos	Dec 1, 2021	Action LocalizationAction Recognition	—Unverified
HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition	Feb 9, 2025	Action RecognitionSkeleton Based Action Recognition	—Unverified
Hyper-Fisher Vectors for Action Recognition	Sep 28, 2015	Action RecognitionTemporal Action Localization	—Unverified
Cricket stroke extraction: Towards creation of a large-scale cricket actions dataset	Jan 10, 2019	Action LocalizationGame of Cricket	—Unverified
iCub! Do you recognize what I am doing?: multimodal human action recognition on multisensory-enabled iCub robot	Dec 17, 2022	Action RecognitionEnsemble Learning	—Unverified
IF-TTN: Information Fused Temporal Transformation Network for Video Action Recognition	Feb 26, 2019	Action RecognitionOptical Flow Estimation	—Unverified
Cross Domain Model Compression by Structurally Weight Sharing	Jun 1, 2019	Action RecognitionGraph Embedding	—Unverified
Image and Video Mining through Online Learning	Sep 9, 2016	Action RecognitionActive Learning	—Unverified
Image-based OoD-Detector Principles on Graph-based Input Data in Human Action Recognition	Mar 3, 2020	Action RecognitionMetric Learning	—Unverified
Improved Dense Trajectory with Cross Streams	Apr 29, 2016	Action ClassificationAction Recognition	—Unverified
Learning Actionness via Long-range Temporal Order Verification	Aug 1, 2020	Action LocalizationAction Recognition	—Unverified
Learning Action Recognition Model From Depth and Skeleton Videos	Oct 1, 2017	Action RecognitionHuman-Object Interaction Detection	—Unverified
Comparative Evaluation of Action Recognition Methods via Riemannian Manifolds, Fisher Vectors and GMMs: Ideal and Challenging Conditions	Feb 4, 2016	Action RecognitionTemporal Action Localization	—Unverified
Improving Continuous Sign Language Recognition: Speech Recognition Techniques and System Design	Aug 1, 2013	Gesture RecognitionSign Language Recognition	—Unverified
Improving Human Action Recognition by Non-action Classification	Apr 21, 2016	Action ClassificationAction Recognition	—Unverified
Improving Interpretability of Deep Neural Networks with Semantic Information	Mar 12, 2017	Action RecognitionTemporal Action Localization	—Unverified
Improving performance of recurrent neural network with relu nonlinearity	Nov 12, 2015	Action RecognitionTemporal Action Localization	—Unverified
Improving the Multi-label Atomic Activity Recognition by Robust Visual Feature and Advanced Attention @ ROAD++ Atomic Activity Recognition 2024	Oct 21, 2024	Action RecognitionActivity Recognition	—Unverified
Improving Video Violence Recognition with Human Interaction Learning on 3D Skeleton Point Clouds	Aug 26, 2023	Action RecognitionTemporal Action Localization	—Unverified
Gradient Frequency Modulation for Visually Explaining Video Understanding Models	Nov 1, 2021	Action RecognitionTemporal Action Localization	—Unverified
Including Semantic Information via Word Embeddings for Skeleton-based Action Recognition	Jun 23, 2025	Action RecognitionSkeleton Based Action Recognition	—Unverified
IndGIC: Supervised Action Recognition under Low Illumination	Aug 29, 2023	Action RecognitionImage Enhancement	—Unverified
Inertial Sensor Data To Image Encoding For Human Action Recognition	May 28, 2021	Action RecognitionTemporal Action Localization	—Unverified
Informed Democracy: Voting-based Novelty Detection for Action Recognition	Oct 30, 2018	Action ClassificationAction Recognition	—Unverified
Action Recognition in Video Using Sparse Coding and Relative Features	May 10, 2016	Action RecognitionTemporal Action Localization	—Unverified
Gradient Boundary Histograms for Action Recognition	Dec 3, 2014	Action RecognitionTemporal Action Localization	—Unverified
Combining Spatio-Temporal Appearance Descriptors and Optical Flow for Human Action Recognition in Video Data	Oct 1, 2013	Action RecognitionOptical Flow Estimation	—Unverified
Interact Before Align: Leveraging Cross-Modal Knowledge for Domain Adaptive Action Recognition	Jan 1, 2022	Action RecognitionTemporal Action Localization	—Unverified
Interaction Part Mining: A Mid-Level Approach for Fine-Grained Action Recognition	Jun 1, 2015	Action RecognitionFine-grained Action Recognition	—Unverified
Learning a Deep Model for Human Action Recognition from Novel Viewpoints	Feb 2, 2016	Action RecognitionTemporal Action Localization	—Unverified
Learning and Refining of Privileged Information-based RNNs for Action Recognition from Depth Sequences	Mar 28, 2017	Action RecognitionGeneral Classification	—Unverified
Curvature: A signature for Action Recognition in Video Sequences	Apr 30, 2019	Action RecognitionFew-Shot Learning	—Unverified
Learning discriminative trajectorylet detector sets for accurate skeleton-based action recognition	Apr 20, 2015	Action RecognitionSkeleton Based Action Recognition	—Unverified
In the Eye of Beholder: Joint Learning of Gaze and Actions in First Person Video	Sep 1, 2018	Action RecognitionGaze Estimation	—Unverified
Learning Multi-level Features For Sensor-based Human Action Recognition	Nov 22, 2016	Action RecognitionTemporal Action Localization	—Unverified
Investigation on Combining 3D Convolution of Image Data and Optical Flow to Generate Temporal Action Proposals	Mar 11, 2019	Action RecognitionOptical Flow Estimation	—Unverified
Invisible-to-Visible: Privacy-Aware Human Instance Segmentation using Airborne Ultrasound via Collaborative Learning Variational Autoencoder	Apr 15, 2022	Action RecognitionAction Understanding	—Unverified
Going Deeper into First-Person Activity Recognition	May 12, 2016	Action RecognitionActivity Recognition	—Unverified
Action Class Relation Detection and Classification Across Multiple Video Datasets	Aug 15, 2023	Action RecognitionAction Recognition In Videos	—Unverified
JCDNet: Joint of Common and Definite phases Network for Weakly Supervised Temporal Action Localization	Mar 30, 2023	Action LocalizationMultiple Instance Learning	—Unverified
Going Deeper into Action Recognition: A Survey	May 16, 2016	Action AnalysisAction Recognition	—Unverified
Joint Action Recognition and Pose Estimation From Video	Jun 1, 2015	Action RecognitionPose Estimation	—Unverified
Combining Deep Learning Classifiers for 3D Action Recognition	Apr 21, 2020	3D Action RecognitionAction Recognition	—Unverified
Joint-bone Fusion Graph Convolutional Network for Semi-supervised Skeleton Action Recognition	Feb 8, 2022	Action RecognitionDecoder	—Unverified
Joint Denoising / Compression of Image Contours via Shape Prior and Context Tree	Apr 30, 2017	Action RecognitionDenoising	—Unverified
Global Temporal Representation based CNNs for Infrared Action Recognition	Sep 18, 2019	Action RecognitionOptical Flow Estimation	—Unverified

Show:10 25 50

← PrevPage 14 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified