Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1477 papers

Title	Date	Tasks	Status	Hype
BABEL: Bodies, Action and Behavior with English Labels	Jun 17, 2021	3D Action RecognitionAction Classification	CodeCode Available	1
Fast Fourier Convolution	Dec 1, 2020	Action RecognitionKeypoint Detection	CodeCode Available	1
Few-Shot Temporal Action Localization with Query Adaptive Transformer	Oct 20, 2021	Action LocalizationAction Segmentation	CodeCode Available	1
FineAction: A Fine-Grained Video Dataset for Temporal Action Localization	May 24, 2021	Action DetectionAction Localization	CodeCode Available	1
Foreground-Action Consistency Network for Weakly Supervised Temporal Action Localization	Aug 14, 2021	Action LocalizationMultiple Instance Learning	CodeCode Available	1
Generative Model-based Feature Knowledge Distillation for Action Recognition	Dec 14, 2023	Action DetectionAction Recognition	CodeCode Available	1
G-TAD: Sub-Graph Localization for Temporal Action Detection	Nov 26, 2019	Temporal Action Localization	CodeCode Available	1
Hard No-Box Adversarial Attack on Skeleton-Based Human Action Recognition with Skeleton-Motion-Informed Gradient	Aug 10, 2023	Action RecognitionActivity Recognition	CodeCode Available	1
Complex Sequential Understanding through the Awareness of Spatial and Temporal Concepts	May 30, 2020	Action RecognitionTemporal Action Localization	CodeCode Available	1
Improved Residual Networks for Image and Video Recognition	Apr 10, 2020	Action Recognitionimage-classification	CodeCode Available	1
Infrared and 3D skeleton feature fusion for RGB-D action recognition	Feb 28, 2020	Action ClassificationAction Recognition	CodeCode Available	1
InHARD - Industrial Human Action Recognition Dataset in the Context of Industrial Collaborative Robotics	Sep 30, 2020	Action RecognitionTemporal Action Localization	CodeCode Available	1
Background Suppression Network for Weakly-supervised Temporal Action Localization	Nov 22, 2019	Action LocalizationTemporal Action Localization	CodeCode Available	1
Background-Click Supervision for Temporal Action Localization	Nov 24, 2021	Action LocalizationPosition	CodeCode Available	1
Weakly-supervised Temporal Action Localization by Uncertainty Modeling	Jun 12, 2020	Action ClassificationAction Localization	CodeCode Available	1
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers	Jun 9, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization	Mar 24, 2021	Action LocalizationTemporal Action Localization	CodeCode Available	1
Learning Self-Similarity in Space and Time as Generalized Motion for Video Action Recognition	Feb 14, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1
BSN++: Complementary Boundary Regressor with Scale-Balanced Relation Modeling for Temporal Action Proposal Generation	Sep 15, 2020	Action LocalizationRelation	CodeCode Available	1
Lifelong Graph Learning	Sep 1, 2020	Action RecognitionContinual Learning	CodeCode Available	1
BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection	May 5, 2022	Action Detectionobject-detection	CodeCode Available	1
M2A: Motion Aware Attention for Accurate Video Action Recognition	Nov 18, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1
ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos	Jul 17, 2024	Action DetectionAction Localization	CodeCode Available	1
MGSampler: An Explainable Sampling Strategy for Video Action Recognition	Apr 20, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1
A Comprehensive Study of Deep Video Action Recognition	Dec 11, 2020	Action RecognitionDeep Learning	CodeCode Available	1
Action Transformer: A Self-Attention Model for Short-Time Pose-Based Human Action Recognition	Jul 1, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1
ActionCLIP: A New Paradigm for Video Action Recognition	Sep 17, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos	Apr 26, 2021	Action LocalizationClustering	CodeCode Available	1
Multi-view Action Recognition using Cross-view Video Prediction	Aug 1, 2020	Action RecognitionPrediction	CodeCode Available	1
MVFNet: Multi-View Fusion Network for Efficient Video Recognition	Dec 13, 2020	Action ClassificationAction Recognition	CodeCode Available	1
A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization	Jan 3, 2021	Action LocalizationHard Attention	CodeCode Available	1
No frame left behind: Full Video Action Recognition	Mar 29, 2021	Action RecognitionAll	CodeCode Available	1
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions	May 23, 2017	Actin DetectionAction Detection	CodeCode Available	1
CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks	Mar 28, 2020	3D Medical Imaging SegmentationAction Recognition	CodeCode Available	1
Open-Vocabulary Action Localization with Iterative Visual Prompting	Aug 30, 2024	Action LocalizationTemporal Action Localization	CodeCode Available	1
ST-Adapter: Parameter-Efficient Image-to-Video Transfer Learning	Jun 27, 2022	Action ClassificationAction Recognition	CodeCode Available	1
POCO: 3D Pose and Shape Estimation with Confidence	Aug 24, 2023	Action RecognitionPose Estimation	CodeCode Available	1
PointTAD: Multi-Label Temporal Action Detection with Learnable Query Points	Oct 20, 2022	Action DetectionTemporal Action Localization	CodeCode Available	1
Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization	Aug 12, 2024	Action ClassificationAction Localization	CodeCode Available	1
Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization	May 29, 2023	Action LocalizationMultiple Instance Learning	CodeCode Available	1
Compressing Recurrent Neural Networks with Tensor Ring for Action Recognition	Nov 19, 2018	Action RecognitionTemporal Action Localization	CodeCode Available	1
Boosting Weakly-Supervised Temporal Action Localization with Text Information	May 1, 2023	Action LocalizationSentence	CodeCode Available	1
ResFormer: Scaling ViTs with Multi-Resolution Training	Dec 1, 2022	Action Recognitionimage-classification	CodeCode Available	1
Revisiting Anchor Mechanisms for Temporal Action Localization	Aug 22, 2020	Action LocalizationTemporal Action Localization	CodeCode Available	1
Riemannian Multinomial Logistics Regression for SPD Neural Networks	May 18, 2023	Action RecognitionEEG	CodeCode Available	1
Augmented Neural Fine-Tuning for Efficient Backdoor Purification	Jul 14, 2024	Action RecognitionData Augmentation	CodeCode Available	1
Project RISE: Recognizing Industrial Smoke Emissions	May 13, 2020	Action RecognitionTemporal Action Localization	CodeCode Available	1
RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition	Aug 1, 2020	Action RecognitionTemporal Action Localization	CodeCode Available	1
Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization	Jun 14, 2020	Action DetectionAction Localization	CodeCode Available	1
DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition	Mar 19, 2022	Action ClassificationAction Recognition	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified