Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 1477 papers

Title	Date	Tasks	Status
A^2-Nets: Double Attention Networks	Dec 1, 2018	Action ClassificationAction Recognition	CodeCode Available
Let's Dance: Learning From Online Dance Videos	Jan 23, 2018	Action RecognitionOptical Flow Estimation	CodeCode Available
Recognizing Involuntary Actions from 3D Skeleton Data Using Body States	Aug 21, 2017	3D Action RecognitionAction Recognition	CodeCode Available
Unsupervised Feature Learning of Human Actions as Trajectories in Pose Embedding Manifold	Dec 6, 2018	Action RecognitionFine-grained Action Recognition	CodeCode Available
Analysis of Hand Segmentation in the Wild	Mar 8, 2018	Action RecognitionActivity Recognition	CodeCode Available
Analysis and Evaluation of Kinect-based Action Recognition Algorithms	Dec 16, 2021	Action RecognitionTemporal Action Localization	CodeCode Available
Handwashing Action Detection System for an Autonomous Social Robot	Oct 27, 2022	Action DetectionAction Recognition	CodeCode Available
Unsupervised Human Action Recognition with Skeletal Graph Laplacian and Self-Supervised Viewpoints Invariance	Apr 21, 2022	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
A Multi-viewpoint Outdoor Dataset for Human Action Recognition	Oct 7, 2021	Action RecognitionFace Recognition	CodeCode Available
HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization	Dec 26, 2017	Action ClassificationAction Localization	CodeCode Available
Growing a Brain with Sparsity-Inducing Generation for Continual Learning	Jan 1, 2023	Action RecognitionContinual Learning	CodeCode Available
Deja Vu: Motion Prediction in Static Images	Mar 19, 2018	Action Recognitionmotion prediction	CodeCode Available
RefineLoc: Iterative Refinement for Weakly-Supervised Action Localization	Mar 30, 2019	Action LocalizationTemporal Action Localization	CodeCode Available
Action Search: Spotting Actions in Videos and Its Application to Temporal Action Localization	Jun 13, 2017	Action LocalizationAction Spotting	CodeCode Available
Unsupervised Learning of View-invariant Action Representations	Sep 6, 2018	Action RecognitionRepresentation Learning	CodeCode Available
Compressed Video Action Recognition	Dec 2, 2017	Action ClassificationAction Recognition	CodeCode Available
Towards a geometric understanding of Spatio Temporal Graph Convolution Networks	Dec 12, 2023	Action RecognitionActivity Recognition	CodeCode Available
Graph Convolutional Networks for Temporal Action Localization	Sep 7, 2019	Action ClassificationAction Localization	CodeCode Available
Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors	May 19, 2015	Action RecognitionAction Understanding	CodeCode Available
DeepSegmenter: Temporal Action Localization for Detecting Anomalies in Untrimmed Naturalistic Driving Videos	Apr 13, 2023	Action LocalizationClassification	CodeCode Available
Long-term Temporal Convolutions for Action Recognition	Apr 15, 2016	Action RecognitionOptical Flow Estimation	CodeCode Available
Unsupervised Representation Learning by Sorting Sequences	Aug 3, 2017	Action Recognitionimage-classification	CodeCode Available
ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022	Nov 17, 2022	Action LocalizationMoment Queries	CodeCode Available
EV-Action: Electromyography-Vision Multi-Modal Action Dataset	Apr 20, 2019	Action AnalysisAction Recognition	CodeCode Available
Representation Flow for Action Recognition	Oct 2, 2018	Action ClassificationAction Recognition	CodeCode Available
SoccerDB: A Large-Scale Database for Comprehensive Video Understanding	Dec 10, 2019	Action ClassificationAction Detection	CodeCode Available
Spatio-Temporal Naive-Bayes Nearest-Neighbor (ST-NBNN) for Skeleton-Based Action Recognition	Jul 1, 2017	Action ClassificationAction Recognition	CodeCode Available
Long-Range Feedback Spiking Network Captures Dynamic and Static Representations of the Visual Cortex under Movie Stimuli	Jun 2, 2023	Action RecognitionImage Classification	CodeCode Available
AENet: Learning Deep Audio Features for Video Analysis	Jan 3, 2017	Action RecognitionData Augmentation	CodeCode Available
Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization	Dec 12, 2023	Action LocalizationClustering	CodeCode Available
Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization	Jun 1, 2019	Action LocalizationTemporal Action Localization	CodeCode Available
LSTA: Long Short-Term Attention for Egocentric Action Recognition	Nov 26, 2018	Action RecognitionActivity Recognition	CodeCode Available
Graph-Based Global Reasoning Networks	Nov 30, 2018	Action ClassificationAction Recognition	CodeCode Available
Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations	Nov 20, 2018	Temporal Action Localization	CodeCode Available
SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network	Jun 30, 2023	Action RecognitionTemporal Action Localization	CodeCode Available
Collaborative Spatiotemporal Feature Learning for Video Action Recognition	Jun 1, 2019	Action ClassificationAction Recognition	CodeCode Available
Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts	Jan 21, 2024	Action RecognitionScheduling	CodeCode Available
Review of Action Recognition and Detection Methods	Oct 21, 2016	Action DetectionAction Recognition	CodeCode Available
DeepGRU: Deep Gesture Recognition Utility	Oct 30, 2018	Action RecognitionCPU	CodeCode Available
DeepConvContext: A Multi-Scale Approach to Timeseries Classification in Human Activity Recognition	May 27, 2025	Action LocalizationActivity Recognition	CodeCode Available
Revisiting hand-crafted feature for action recognition: a set of improved dense trajectories	Nov 28, 2017	Action RecognitionTemporal Action Localization	CodeCode Available
MARS: Motion-Augmented RGB Stream for Action Recognition	Jun 1, 2019	Action ClassificationAction Recognition	CodeCode Available
Mask and Compress: Efficient Skeleton-based Action Recognition in Continual Learning	Jul 1, 2024	Action RecognitionContinual Learning	CodeCode Available
Glimpse Clouds: Human Activity Recognition from Unstructured Feature Points	Feb 22, 2018	Action RecognitionActivity Prediction	CodeCode Available
Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training	Dec 5, 2023	Action RecognitionDomain Adaptation	CodeCode Available
Advancing Compressed Video Action Recognition through Progressive Knowledge Distillation	Jul 2, 2024	Action RecognitionKnowledge Distillation	CodeCode Available
UntrimmedNets for Weakly Supervised Action Recognition and Detection	Mar 9, 2017	Action RecognitionTemporal Action Localization	CodeCode Available
Memory Attention Networks for Skeleton-based Action Recognition	Apr 23, 2018	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
Video action detection by learning graph-based spatio-temporal interactions	Dec 9, 2019	Action DetectionAction Localization	CodeCode Available
MetaVD: A Meta Video Dataset for enhancing human action recognition datasets	Nov 1, 2021	Action ClassificationAction Recognition	CodeCode Available

Show:10 25 50

← PrevPage 27 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified