Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 1477 papers

Title	Date	Tasks	Status
Learning Ensembles of Potential Functions for Structured Prediction With Latent Variables	Dec 1, 2015	Action RecognitionActivity Recognition	—Unverified
Learning from Small Sample Sets by Combining Unsupervised Meta-Training with CNNs	Dec 1, 2016	Action RecognitionGeneral Classification	—Unverified
Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts	Jan 11, 2021	Action RecognitionPseudo Label	—Unverified
Learning Human Pose Models from Synthesized Data for Robust RGB-D Action Recognition	Jul 4, 2017	Action RecognitionSkeleton Based Action Recognition	—Unverified
Learning Latent Spatio-Temporal Compositional Model for Human Action Recognition	Feb 1, 2015	Action RecognitionTemporal Action Localization	—Unverified
Learning Linear Dynamical Systems with High-Order Tensor Data for Skeleton based Action Recognition	Jan 14, 2017	Action RecognitionDictionary Learning	—Unverified
Learning Mid-level Words on Riemannian Manifold for Action Recognition	Nov 16, 2015	Action RecognitionClustering	—Unverified
Learning Multi-level Features For Sensor-based Human Action Recognition	Nov 22, 2016	Action RecognitionTemporal Action Localization	—Unverified
Learning Optical Flow via Dilated Networks and Occlusion Reasoning	May 7, 2018	Action RecognitionOptical Flow Estimation	—Unverified
Learning person-object interactions for action recognition in still images	Dec 1, 2011	Action RecognitionAction Recognition In Still Images	—Unverified
Learning Representative Temporal Features for Action Recognition	Feb 19, 2018	Action RecognitionOptical Flow Estimation	—Unverified
Learning Spatiotemporal Features for Infrared Action Recognition with 3D Convolutional Neural Networks	May 18, 2017	Action RecognitionOptical Flow Estimation	—Unverified
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision	Jul 8, 2020	Acoustic Scene ClassificationAction Recognition	—Unverified
Learning to Learn from Noisy Web Videos	Jun 9, 2017	Action RecognitionQ-Learning	—Unverified
Learning to Recognize 3D Human Action from A New Skeleton-based Representation Using Deep Convolutional Neural Networks	Dec 26, 2018	3D Action RecognitionAction Recognition	—Unverified
Learning to Recognize Actions from Limited Training Examples Using a Recurrent Spiking Neural Model	Oct 19, 2017	Action RecognitionTemporal Action Localization	—Unverified
Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries	Feb 16, 2021	Action RecognitionObject	—Unverified
Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization	Jun 23, 2022	Action LocalizationTemporal Action Localization	—Unverified
Learning to Score Sign Language with Two-stage Method	Apr 16, 2024	Action RecognitionTemporal Action Localization	—Unverified
Learning to track for spatio-temporal action localization	Jun 5, 2015	Action LocalizationSpatio-Temporal Action Localization	—Unverified
Learning Transferable Self-attentive Representations for Action Recognition in Untrimmed Videos with Weak Supervision	Feb 20, 2019	Action RecognitionAction Recognition In Videos	—Unverified
Learning Video-Conditioned Policies for Unseen Manipulation Tasks	May 10, 2023	Action RecognitionRobot Manipulation	—Unverified
Learning without Prejudice: Avoiding Bias in Webly-Supervised Action Recognition	Jun 14, 2017	Action RecognitionOptical Flow Estimation	—Unverified
Learning zeroth class dictionary for human action recognition	Mar 13, 2016	Action RecognitionDictionary Learning	—Unverified
Leveraging Foundation Model Automatic Data Augmentation Strategies and Skeletal Points for Hands Action Recognition in Industrial Assembly Lines	Mar 14, 2024	Action RecognitionData Augmentation	—Unverified
Leveraging Hierarchical Parametric Networks for Skeletal Joints Based Action Segmentation and Recognition	Jun 1, 2014	Action RecognitionAction Segmentation	—Unverified
Towards Achieving Perfect Multimodal Alignment	Mar 19, 2025	Action RecognitionRepresentation Learning	—Unverified
Leveraging Random Label Memorization for Unsupervised Pre-Training	Nov 5, 2018	Action RecognitionMemorization	—Unverified
Developing the Path Signature Methodology and its Application to Landmark-based Human Action Recognition	Jul 13, 2017	Action ClassificationAction Recognition	—Unverified
Lie-X: Depth Image Based Articulated Object Pose Estimation, Tracking, and Action Recognition on Lie Groups	Sep 13, 2016	Action RecognitionPose Estimation	—Unverified
Linear-time Online Action Detection From 3D Skeletal Data Using Bags of Gesturelets	Feb 4, 2015	Action DetectionAction Recognition	—Unverified
Locality preserving projection on SPD matrix Lie group: algorithm and analysis	Mar 28, 2017	Action RecognitionDimensionality Reduction	—Unverified
Localized Trajectories for 2D and 3D Action Recognition	Apr 10, 2019	3D Action RecognitionAction Recognition	—Unverified
Localizing Moments of Actions in Untrimmed Videos of Infants with Autism Spectrum Disorder	Apr 8, 2024	Action LocalizationTemporal Action Localization	—Unverified
LocATe: End-to-end Localization of Actions in 3D with Transformers	Mar 21, 2022	Action LocalizationAction Recognition	—Unverified
Log-Euclidean Bag of Words for Human Action Recognition	Jun 9, 2014	Action RecognitionOptical Flow Estimation	—Unverified
LoKi: Low-dimensional KAN for Efficient Fine-tuning Image Models	Jan 1, 2025	Action RecognitionDecoder	—Unverified
Long-Range Trajectories from Global and Local Motion Representations	Sep 29, 2015	Action RecognitionMotion Segmentation	—Unverified
Look, Listen, and Attack: Backdoor Attacks Against Video Action Recognition	Jan 3, 2023	Action RecognitionTemporal Action Localization	—Unverified
LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition	Jul 19, 2024	Action RecognitionComputational Efficiency	—Unverified
LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization	Apr 1, 2024	Action LocalizationGPU	—Unverified
Loss Guided Activation for Action Recognition in Still Images	Dec 11, 2018	Action RecognitionAction Recognition In Still Images	—Unverified
Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization	Mar 28, 2021	Action ClassificationAction Localization	—Unverified
Low-Fidelity Video Encoder Optimization for Temporal Action Localization	Dec 1, 2021	Action ClassificationAction Localization	—Unverified
Low-Latency Human Action Recognition with Weighted Multi-Region Convolutional Neural Network	May 8, 2018	Action RecognitionChunking	—Unverified
Low Pass Filter for Anti-aliasing in Temporal Action Localization	Apr 23, 2021	Action LocalizationTemporal Action Localization	—Unverified
LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks	Apr 6, 2019	Action RecognitionPosition	—Unverified
Towards Train-Test Consistency for Semi-supervised Temporal Action Localization	Oct 24, 2019	Action LocalizationMultiple Instance Learning	—Unverified
M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition	Jan 22, 2024	Action RecognitionDecoder	—Unverified
M^33D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding	Sep 26, 2023	2D Semantic SegmentationAction Detection	—Unverified

Show:10 25 50

← PrevPage 21 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified