Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 1477 papers

Title	Date	Tasks	Status
DMCL: Distillation Multiple Choice Learning for Multimodal Action Recognition	Dec 23, 2019	Action RecognitionMultiple-choice	CodeCode Available
Weakly-Supervised Temporal Action Localization by Progressive Complementary Learning	Jun 22, 2022	Action LocalizationMultiple Instance Learning	CodeCode Available
Video Representation Learning by Dense Predictive Coding	Sep 10, 2019	Action RecognitionRepresentation Learning	CodeCode Available
SMART: Scene-motion-aware human action recognition framework for mental disorder group	Jun 7, 2024	Action RecognitionTemporal Action Localization	CodeCode Available
A Simple Transformer-Based Model for Ego4D Natural Language Queries Challenge	Nov 16, 2022	Action LocalizationNatural Language Queries	CodeCode Available
Actions ~ Transformations	Dec 2, 2015	Action RecognitionTemporal Action Localization	CodeCode Available
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks	Nov 11, 2022	Action ClassificationAction Localization	CodeCode Available
Temporal Unet: Sample Level Human Action Recognition using WiFi	Apr 19, 2019	Action LocalizationAction Recognition	CodeCode Available
Sparse 3D convolutional neural networks	May 12, 2015	3D Object RecognitionObject Recognition	CodeCode Available
Learning deep representations for video-based intake gesture detection	Sep 24, 2019	Action RecognitionTemporal Action Localization	CodeCode Available
Dilation-Erosion for Single-Frame Supervised Temporal Action Localization	Dec 13, 2022	Action LocalizationTemporal Action Localization	CodeCode Available
Human Action Recognition by Representing 3D Skeletons as Points in a Lie Group	Jun 23, 2014	Action RecognitionDynamic Time Warping	CodeCode Available
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision	Dec 9, 2021	Action LocalizationAction Recognition	CodeCode Available
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos	Aug 3, 2022	Action LocalizationEmotion Classification	CodeCode Available
Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Localization	Jan 1, 2023	Action LocalizationPseudo Label	CodeCode Available
Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition	Apr 26, 2019	Action RecognitionDecoder	CodeCode Available
High-Performance Inference Graph Convolutional Networks for Skeleton-Based Action Recognition	May 30, 2023	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
Learning from Video and Text via Large-Scale Discriminative Clustering	Jul 27, 2017	Action RecognitionClustering	CodeCode Available
A Pursuit of Temporal Accuracy in General Activity Detection	Mar 8, 2017	Action DetectionActivity Detection	CodeCode Available
Learning Gating ConvNet for Two-Stream based Methods in Action Recognition	Sep 12, 2017	Action ClassificationAction Recognition	CodeCode Available
Learning Human Action Recognition Representations Without Real Humans	Nov 10, 2023	Action RecognitionEthics	CodeCode Available
RALACs: Action Recognition in Autonomous Vehicles using Interaction Encoding and Optical Flow	Sep 28, 2022	Action ClassificationAction Detection	CodeCode Available
Sparse Covariance Neural Networks	Oct 2, 2024	Action RecognitionComputational Efficiency	CodeCode Available
Learning Multimodal Representations for Unseen Activities	Jun 21, 2018	General ClassificationTemporal Action Localization	CodeCode Available
Learning long-term dependencies for action recognition with a biologically-inspired deep network	Nov 16, 2016	Action RecognitionTemporal Action Localization	CodeCode Available
Rank Pooling for Action Recognition	Dec 6, 2015	Action RecognitionGesture Recognition	CodeCode Available
Rate-Accuracy Trade-Off In Video Classification With Deep Convolutional Neural Networks	Sep 27, 2018	Action RecognitionClassification	CodeCode Available
Diagnosing Error in Temporal Action Detectors	Jul 27, 2018	Action LocalizationDiagnostic	CodeCode Available
Re2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization	Jan 1, 2023	Action LocalizationGPU	CodeCode Available
Describing Videos by Exploiting Temporal Structure	Feb 27, 2015	Action RecognitionImage Description	CodeCode Available
Hierarchical Explanations for Video Action Recognition	Jan 1, 2023	Action ClassificationAction Recognition	CodeCode Available
Hide-and-Seek: A Data Augmentation Technique for Weakly-Supervised Localization and Beyond	Nov 6, 2018	Action LocalizationData Augmentation	CodeCode Available
HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices	Mar 30, 2023	Action RecognitionScheduling	CodeCode Available
Delving Deeper into Convolutional Networks for Learning Video Representations	Nov 19, 2015	Action RecognitionDecoder	CodeCode Available
Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition	Aug 25, 2017	Action RecognitionHand-Gesture Recognition	CodeCode Available
Learning Spatio-Temporal Representation with Local and Global Diffusion	Jun 13, 2019	Action ClassificationAction Detection	CodeCode Available
Real-Time Action Detection in Video Surveillance using Sub-Action Descriptor with Multi-CNN	Oct 10, 2017	Action DetectionAction Recognition	CodeCode Available
Learning Temporal Co-Attention Models for Unsupervised Video Action Localization	Jun 1, 2020	Action LocalizationClustering	CodeCode Available
Learning to Estimate Pose by Watching Videos	Apr 13, 2017	Action RecognitionPose Estimation	CodeCode Available
Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition	Dec 23, 2023	Action RecognitionContrastive Learning	CodeCode Available
Contextual Action Recognition with R*CNN	May 5, 2015	Action RecognitionAttribute	CodeCode Available
Appearance-and-Relation Networks for Video Classification	Nov 24, 2017	Action ClassificationAction Recognition	CodeCode Available
Conditional Extreme Value Theory for Open Set Video Domain Adaptation	Sep 1, 2021	Action RecognitionDomain Adaptation	CodeCode Available
Are Spatial-Temporal Graph Convolution Networks for Human Action Recognition Over-Parameterized?	May 15, 2025	Action RecognitionTemporal Action Localization	CodeCode Available
Learning To Score Olympic Events	Nov 16, 2016	Action Quality AssessmentAction Recognition	CodeCode Available
Anchor-free temporal action localization via Progressive Boundary-aware Boosting	Jan 1, 2023	Action LocalizationTemporal Action Localization	CodeCode Available
A Comparative Review of Recent Kinect-based Action Recognition Algorithms	Jun 24, 2019	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition	Apr 20, 2018	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition from Skeleton Data	Mar 24, 2017	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
Unsupervised Domain Adaptation for Video Transformers in Action Recognition	Jul 26, 2022	Action RecognitionDomain Adaptation	CodeCode Available

Show:10 25 50

← PrevPage 26 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified