Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1351–1400 of 1477 papers

Title	Date	Tasks	Status
Decoupling Localization and Classification in Single Shot Temporal Action Detection	Apr 16, 2019	Action DetectionClassification	CodeCode Available
STAIR Actions: A Video Dataset of Everyday Home Actions	Apr 12, 2018	Action RecognitionTemporal Action Localization	CodeCode Available
MFAS: Multimodal Fusion Architecture Search	Jun 1, 2019	Action RecognitionGeneral Classification	CodeCode Available
Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization	Dec 27, 2024	Action LocalizationOptical Flow Estimation	CodeCode Available
RHM: Robot House Multi-view Human Activity Recognition Dataset	Apr 24, 2023	Action RecognitionActivity Recognition	CodeCode Available
Richly Activated Graph Convolutional Network for Action Recognition with Incomplete Skeletons	May 16, 2019	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
Richly Activated Graph Convolutional Network for Robust Skeleton-based Action Recognition	Aug 9, 2020	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
Ridiculously Fast Shot Boundary Detection with Fully Convolutional Neural Networks	May 23, 2017	Action RecognitionBoundary Detection	CodeCode Available
DD-GCN: Directed Diffusion Graph Convolutional Network for Skeleton-based Human Action Recognition	Aug 24, 2023	Action RecognitionTemporal Action Localization	CodeCode Available
Mining YouTube - A dataset for learning fine-grained action concepts from webly supervised video data	Jun 3, 2019	Action RecognitionGeneral Classification	CodeCode Available
MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action Recognition	Mar 5, 2023	Action RecognitionTemporal Action Localization	CodeCode Available
D3D: Distilled 3D Networks for Video Action Recognition	Dec 19, 2018	Action ClassificationAction Recognition	CodeCode Available
D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations	Dec 11, 2020	Action LocalizationDenoising	CodeCode Available
Gate-Shift-Fuse for Video Action Recognition	Mar 16, 2022	Action RecognitionTemporal Action Localization	CodeCode Available
Action Recognition with Dynamic Image Networks	Dec 2, 2016	Action RecognitionOptical Flow Estimation	CodeCode Available
Collaborative Spatio-temporal Feature Learning for Video Action Recognition	Mar 4, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available
Improving Transfer Learning with a Dual Image and Video Transformer for Multi-label Movie Trailer Genre Classification	Oct 14, 2022	Action RecognitionClassification	CodeCode Available
Modality Distillation with Multiple Stream Networks for Action Recognition	Jun 19, 2018	Action ClassificationAction Detection	CodeCode Available
What Makes Training Multi-Modal Classification Networks Hard?	May 29, 2019	Action ClassificationAction Recognition	CodeCode Available
Using phase instead of optical flow for action recognition	Sep 10, 2018	Action RecognitionMotion Magnification	CodeCode Available
Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization	Jul 12, 2024	Action LocalizationContrastive Learning	CodeCode Available
CNN based Multistage Gated Average Fusion (MGAF) for Human Action Recognition Using Depth and Inertial Sensors	Oct 29, 2020	Action RecognitionTemporal Action Localization	CodeCode Available
StNet: Local and Global Spatial-Temporal Modeling for Action Recognition	Nov 5, 2018	Action RecognitionTemporal Action Localization	CodeCode Available
2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning	Feb 26, 2018	3D Human Pose Estimation3D Pose Estimation	CodeCode Available
Structure-Aware Convolutional Neural Networks	Dec 1, 2018	Action DetectionAction Recognition	CodeCode Available
Roweisposes, Including Eigenposes, Supervised Eigenposes, and Fisherposes, for 3D Action Recognition	Jun 28, 2020	3D Action RecognitionAction Recognition	CodeCode Available
Class Feature Pyramids for Video Explanation	Sep 18, 2019	Action RecognitionTemporal Action Localization	CodeCode Available
Moments in Time Dataset: one million videos for event understanding	Jan 9, 2018	Action RecognitionDiversity	CodeCode Available
More Is Less: Learning Efficient Video Representations by Big-Little Network and Depthwise Temporal Aggregation	Dec 2, 2019	Action ClassificationAction Recognition	CodeCode Available
Action Recognition using Visual Attention	Nov 12, 2015	Action RecognitionAction Recognition In Videos	CodeCode Available
CSI-Net: Unified Human Body Characterization and Pose Recognition	Oct 7, 2018	Person RecognitionTemporal Action Localization	CodeCode Available
SADA: Semantic adversarial unsupervised domain adaptation for Temporal Action Localization	Dec 20, 2023	Action DetectionAction Localization	CodeCode Available
Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer	Feb 17, 2023	Action RecognitionAction Recognition In Videos	CodeCode Available
From Single-Visit to Multi-Visit Image-Based Models: Single-Visit Models are Enough to Predict Obstructive Hydronephrosis	Dec 27, 2022	Action RecognitionPrediction	CodeCode Available
Cross-Model Cross-Stream Learning for Self-Supervised Human Action Recognition	Sep 23, 2024	Action RecognitionContrastive Learning	CodeCode Available
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration	Jul 27, 2023	Action RecognitionTemporal Action Localization	CodeCode Available
FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition on The Edge	Nov 4, 2023	Action RecognitionTemporal Action Localization	CodeCode Available
3D Pose from Motion for Cross-view Action Recognition via Non-linear Circulant Temporal Encoding	Jun 1, 2014	Action RecognitionTemporal Action Localization	CodeCode Available
Multi-attention Networks for Temporal Localization of Video-level Labels	Nov 15, 2019	Action RecognitionTemporal Action Localization	CodeCode Available
ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition	Aug 7, 2023	Action RecognitionLanguage Modeling	CodeCode Available
Multi class activity classification in videos using Motion History Image generation	Oct 13, 2024	Action ClassificationAction Recognition	CodeCode Available
FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement	Aug 25, 2024	Action LocalizationFew Shot Temporal Action Localization	CodeCode Available
Transfer Learning of Deep Spatiotemporal Networks to Model Arbitrarily Long Videos of Seizures	Jun 22, 2021	Action RecognitionManagement	CodeCode Available
Support Vector Machines with Time Series Distance Kernels for Action Classification	Mar 7, 2016	Action ClassificationAction Recognition	CodeCode Available
Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature	Mar 22, 2023	Action LocalizationPseudo Label	CodeCode Available
Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning	May 31, 2024	Action RecognitionContrastive Learning	CodeCode Available
Video BagNet: short temporal receptive fields increase robustness in long-term action recognition	Aug 22, 2023	Action RecognitionTemporal Action Localization	CodeCode Available
Weakly-Supervised Temporal Action Localization with Bidirectional Semantic Consistency Constraint	Apr 25, 2023	Action LocalizationTemporal Action Localization	CodeCode Available
Actor-identified Spatiotemporal Action Detection --- Detecting Who Is Doing What in Videos	Aug 27, 2022	Action ClassificationAction Detection	CodeCode Available
Weakly supervised temporal action localization with actionness-guided false positive suppression	Apr 15, 2024	Action LocalizationTemporal Action Localization	CodeCode Available

Show:10 25 50

← PrevPage 28 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified