Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 1477 papers

Title	Date	Tasks	Status	Hype	Score
CZU-MHAD: A multimodal dataset for human action recognition utilizing a depth camera and 10 wearable inertial sensors	Feb 7, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	1	5
Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism	Jul 18, 2024	Action LocalizationTemporal Action Localization	CodeCode Available	1	5
Actionness Inconsistency-guided Contrastive Learning for Weakly-supervised Temporal Action Localization	Jun 26, 2023	Action LocalizationContrastive Learning	CodeCode Available	1	5
ACTION-Net: Multipath Excitation for Action Recognition	Mar 11, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1	5
A Closer Look at Spatiotemporal Convolutions for Action Recognition	Nov 30, 2017	Action ClassificationAction Recognition	CodeCode Available	1	5
Background-Click Supervision for Temporal Action Localization	Nov 24, 2021	Action LocalizationPosition	CodeCode Available	1	5
ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization	Apr 7, 2021	Action LocalizationTemporal Action Localization	CodeCode Available	1	5
EZ-CLIP: Efficient Zeroshot Video Action Recognition	Dec 13, 2023	Action RecognitionGPU	CodeCode Available	1	5
AutoVideo: An Automated Video Action Recognition System	Aug 9, 2021	Action RecognitionAutoML	CodeCode Available	1	5
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions	May 23, 2017	Actin DetectionAction Detection	CodeCode Available	1	5
B2C-AFM: Bi-Directional Co-Temporal and Cross-Spatial Attention Fusion Model for Human Action Recognition	Aug 30, 2023	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1	5
Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action Recognition	Jul 7, 2020	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1	5
Dual Contrastive Prediction for Incomplete Multi-view Representation Learning	Apr 1, 2023	Action RecognitionContrastive Learning	CodeCode Available	1	5
Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization	May 1, 2022	Action LocalizationData Augmentation	CodeCode Available	1	5
Bottom-Up Temporal Action Localization with Mutual Regularization	Feb 18, 2020	Action LocalizationTemporal Action Localization	CodeCode Available	1	5
Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation	Apr 17, 2018	Action RecognitionRF-based Pose Estimation	CodeCode Available	1	5
Complex Sequential Understanding through the Awareness of Spatial and Temporal Concepts	May 30, 2020	Action RecognitionTemporal Action Localization	CodeCode Available	1	5
Challenges in Video-Based Infant Action Recognition: A Critical Examination of the State of the Art	Nov 21, 2023	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1	5
CDFSL-V: Cross-Domain Few-Shot Learning for Videos	Sep 7, 2023	Action RecognitionCross-Domain Few-Shot	CodeCode Available	1	5
CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning	Mar 30, 2021	Action LocalizationCoLA	CodeCode Available	1	5
Compressing Recurrent Neural Networks with Tensor Ring for Action Recognition	Nov 19, 2018	Action RecognitionTemporal Action Localization	CodeCode Available	1	5
Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization	Jul 27, 2021	Action LocalizationTemporal Action Localization	CodeCode Available	1	5
Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization	Jun 14, 2020	Action DetectionAction Localization	CodeCode Available	1	5
A Dense-Sparse Complementary Network for Human Action Recognition based on RGB and Skeleton Modalities	Dec 28, 2023	Action RecognitionAction Recognition In Videos	CodeCode Available	1	5
Action Transformer: A Self-Attention Model for Short-Time Pose-Based Human Action Recognition	Jul 1, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 60Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified