Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1450 of 1477 papers

Title	Date	Tasks	Status
Multilevel semantic and adaptive actionness learning for weakly supervised temporal action localization	Nov 24, 2024	Action ClassificationAction Localization	CodeCode Available
Multimodal Attack Detection for Action Recognition Models	Apr 13, 2024	Action RecognitionTemporal Action Localization	CodeCode Available
FLAG3D: A 3D Fitness Activity Dataset with Language Instruction	Dec 9, 2022	Action GenerationAction Recognition	CodeCode Available
Cross-modal Learning by Hallucinating Missing Modalities in RGB-D Vision	Jan 1, 2019	Action RecognitionHallucination	CodeCode Available
Synthetic Humans for Action Recognition from Unseen Viewpoints	Dec 9, 2019	Action ClassificationAction Recognition	CodeCode Available
Chained Multi-stream Networks Exploiting Pose, Motion, and Appearance for Action Classification and Detection	Apr 3, 2017	Action ClassificationAction Localization	CodeCode Available
Multimodal Task-Driven Dictionary Learning for Image Classification	Feb 4, 2015	Action RecognitionClassification	CodeCode Available
Selective Volume Mixup for Video Action Recognition	Sep 18, 2023	Action RecognitionImage Augmentation	CodeCode Available
Multimodal Visual Concept Learning with Weakly Supervised Techniques	Dec 3, 2017	Action RecognitionDescriptive	CodeCode Available
Actor and Observer: Joint Modeling of First and Third-Person Videos	Apr 25, 2018	Action RecognitionTemporal Action Localization	CodeCode Available
ACGNet: Action Complement Graph Network for Weakly-supervised Temporal Action Localization	Dec 21, 2021	Action LocalizationTemporal Action Localization	CodeCode Available
Cross-Modal and Hierarchical Modeling of Video and Text	Oct 16, 2018	Action RecognitionRetrieval	CodeCode Available
Fisherposes for Human Action Recognition Using Kinect Sensor Data	Feb 15, 2018	3D Action RecognitionAction Recognition	CodeCode Available
TAda! Temporally-Adaptive Convolutions for Video Understanding	Oct 12, 2021	Action ClassificationAction Recognition	CodeCode Available
TadML: A fast temporal action detection with Mechanics-MLP	Jun 7, 2022	Action DetectionOptical Flow Estimation	CodeCode Available
Talk is Not Always Cheap: Promoting Wireless Sensing Models with Text Prompts	Apr 20, 2025	Action LocalizationAction Recognition	CodeCode Available
Cross and Learn: Cross-Modal Self-Supervision	Nov 9, 2018	Action RecognitionOptical Flow Estimation	CodeCode Available
First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations	Apr 8, 2017	3D Hand Pose EstimationAction Recognition	CodeCode Available
CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos	Mar 4, 2017	Action LocalizationGPU	CodeCode Available
Features Understanding in 3D CNNs for Actions Recognition in Video	Oct 1, 2020	Action RecognitionDecision Making	CodeCode Available
TS-LSTM and Temporal-Inception: Exploiting Spatiotemporal Dynamics for Activity Recognition	Mar 30, 2017	Action ClassificationAction Recognition	CodeCode Available
Targeted Nonlinear Adversarial Perturbations in Images and Videos	Aug 27, 2018	Action RecognitionData Augmentation	CodeCode Available
ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding	Jun 1, 2015	Action DetectionAction Recognition	CodeCode Available
Boosting Positive Segments for Weakly-Supervised Audio-Visual Video Parsing	Jan 1, 2023	Action LocalizationMultiple Instance Learning	CodeCode Available
TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial Decoding	Oct 17, 2021	Action RecognitionTemporal Action Localization	CodeCode Available
Boosting Adversarial Transferability across Model Genus by Deformation-Constrained Warping	Feb 6, 2024	Action Recognitionimage-classification	CodeCode Available
Temporal Action Detection Using a Statistical Language Model	Jun 1, 2016	Action DetectionAction Recognition	CodeCode Available
Faster Learning of Temporal Action Proposal via Sparse Multilevel Boundary Generator	Mar 6, 2023	Action LocalizationTemporal Action Localization	CodeCode Available
Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition	Apr 2, 2019	Action RecognitionComputational Efficiency	CodeCode Available
Beyond the Self: Using Grounded Affordances to Interpret and Describe Others' Actions	Feb 26, 2019	Action RecognitionTemporal Action Localization	CodeCode Available
Expressive Keypoints for Skeleton-based Action Recognition via Skeleton Transformation	Jun 26, 2024	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for People with Visual Impairments	Aug 2, 2023	Action RecognitionImage Captioning	CodeCode Available
NEV-NCD: Negative Learning, Entropy, and Variance regularization based novel action categories discovery	Apr 14, 2023	Action RecognitionTemporal Action Localization	CodeCode Available
Explaining NonLinear Classification Decisions with Deep Taylor Decomposition	Dec 8, 2015	Action RecognitionClassification	CodeCode Available
Excitation Backprop for RNNs	Nov 18, 2017	Action RecognitionTemporal Action Localization	CodeCode Available
Bayesian Hierarchical Dynamic Model for Human Action Recognition	Jun 1, 2019	Action RecognitionBayesian Inference	CodeCode Available
Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition	May 20, 2018	3D Action RecognitionAction Recognition	CodeCode Available
Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs	Jan 9, 2016	Action ClassificationAction Localization	CodeCode Available
Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos	Jul 21, 2015	Action RecognitionRetrieval	CodeCode Available
Temporal Action Localization Using Gated Recurrent Units	Aug 7, 2021	Action LocalizationAction Recognition	CodeCode Available
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs	Feb 16, 2022	Action LocalizationTemporal Action Localization	CodeCode Available
OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions	Nov 24, 2024	Action ClassificationAction Recognition	CodeCode Available
Counterfactual Gradients-based Quantification of Prediction Trust in Neural Networks	May 22, 2024	Action Recognitioncounterfactual	CodeCode Available
Convolutional Two-Stream Network Fusion for Video Action Recognition	Apr 22, 2016	Action RecognitionAction Recognition In Videos	CodeCode Available
Shifting Perspective to See Difference: A Novel Multi-View Method for Skeleton based Action Recognition	Sep 7, 2022	Action ClassificationAction Recognition	CodeCode Available
A Variational Time Series Feature Extractor for Action Prediction	Jul 6, 2018	Action RecognitionPrediction	CodeCode Available
Online Action Recognition for Human Risk Prediction with Anticipated Haptic Alert via Wearables	Dec 14, 2023	Action RecognitionMixture-of-Experts	CodeCode Available
Online Human Action Detection using Joint Classification-Regression Recurrent Neural Networks	Apr 19, 2016	Action DetectionAction Recognition	CodeCode Available
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale	Nov 14, 2022	Action ClassificationAction Recognition	CodeCode Available
On Modality Bias Recognition and Reduction	Feb 25, 2022	Action RecognitionMulti-modal Classification	CodeCode Available

Show:10 25 50

← PrevPage 29 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified