Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 1477 papers

Title	Date	Tasks	Status
Unrepresentative video data: A review and evaluation	Nov 28, 2018	Action RecognitionTemporal Action Localization	—Unverified
Unseen Action Recognition with Unpaired Adversarial Multimodal Learning	May 1, 2019	Action RecognitionGeneral Classification	—Unverified
Unsupervised Action Proposal Ranking through Proposal Recombination	Apr 3, 2017	Action DetectionAction Recognition	—Unverified
Unsupervised Domain Adaptation for Action Recognition via Self-Ensembling and Conditional Embedding Alignment	Oct 23, 2024	Action RecognitionData Augmentation	—Unverified
Unsupervised Domain Adaptation for Spatio-Temporal Action Localization	Oct 19, 2020	Action LocalizationDomain Adaptation	—Unverified
Unsupervised Domain Adaptation for Zero-Shot Learning	Dec 1, 2015	Action RecognitionDomain Adaptation	—Unverified
Unsupervised Spectral Dual Assignment Clustering of Human Actions in Context	Jun 1, 2014	Action RecognitionClustering	—Unverified
Using joint angles based on the international biomechanical standards for human action recognition and related tasks	Jun 25, 2024	Action DetectionAction Recognition	—Unverified
Variational Conditional Dependence Hidden Markov Models for Skeleton-Based Action Recognition	Feb 13, 2020	Action RecognitionMissing Values	—Unverified
Video action recognition for lane-change classification and prediction of surrounding vehicles	Jan 13, 2021	Action RecognitionAutonomous Vehicles	—Unverified
Video Action Recognition Using spatio-temporal optical flow video frames	Feb 5, 2021	Action RecognitionOptical Flow Estimation	—Unverified
Video Action Recognition Via Neural Architecture Searching	Jul 10, 2019	Action RecognitionTemporal Action Localization	—Unverified
Video Action Recognition with Attentive Semantic Units	Mar 17, 2023	Action RecognitionDecoder	—Unverified
Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories	Mar 23, 2015	Action RecognitionGeneral Classification	—Unverified
Video-based Human Action Recognition using Deep Learning: A Review	Aug 7, 2022	Action RecognitionDeep Learning	—Unverified
Video-based Person Re-identification via 3D Convolutional Networks and Non-local Attention	Jul 12, 2018	Action RecognitionPerson Re-Identification	—Unverified
Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos	Jul 22, 2020	Action RecognitionTemporal Action Localization	—Unverified
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding	Sep 28, 2021	Action LocalizationAction Segmentation	—Unverified
Video Domain Incremental Learning for Human Action Recognition in Home Environments	Dec 22, 2024	Action Recognitionclass-incremental learning	—Unverified
Video Is Graph: Structured Graph Module for Video Action Recognition	Oct 12, 2021	Action RecognitionTemporal Action Localization	—Unverified
Video Jigsaw: Unsupervised Learning of Spatiotemporal Context for Video Action Recognition	Aug 22, 2018	Action RecognitionActivity Recognition	—Unverified
VideoLightFormer: Lightweight Action Recognition using Transformers	Jul 1, 2021	Action RecognitionTemporal Action Localization	—Unverified
Texture-Based Input Feature Selection for Action Recognition	Feb 28, 2023	Action RecognitionAnomaly Detection	—Unverified
Videoprompter: an ensemble of foundational models for zero-shot video understanding	Oct 23, 2023	Action RecognitionDescriptive	—Unverified
Video Representation Learning Using Discriminative Pooling	Mar 26, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization	May 7, 2023	Action LocalizationTemporal Action Localization	—Unverified
View-invariant action recognition	Sep 1, 2020	Action RecognitionRetrieval	—Unverified
View-invariant Deep Architecture for Human Action Recognition using late fusion	Dec 8, 2019	Action RecognitionSSIM	—Unverified
View invariant human action recognition using histograms of 3D joints	Jul 16, 2012	Action RecognitionSkeleton Based Action Recognition	—Unverified
View-Invariant Skeleton-based Action Recognition via Global-Local Contrastive Learning	Sep 23, 2022	Action RecognitionContrastive Learning	—Unverified
Viewpoint Invariant Action Recognition using RGB-D Videos	Sep 15, 2017	Action RecognitionTemporal Action Localization	—Unverified
Vision and Inertial Sensing Fusion for Human Action Recognition : A Review	Aug 2, 2020	Action RecognitionTemporal Action Localization	—Unverified
Vision Transformers for Action Recognition: A Survey	Sep 13, 2022	Action RecognitionDimensionality Reduction	—Unverified
Visual Attribute-augmented Three-dimensional Convolutional Neural Network for Enhanced Human Action Recognition	May 8, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos	Jan 15, 2025	Action RecognitionDecision Making	—Unverified
VLAD3: Encoding Dynamics of Deep Features for Action Recognition	Jun 1, 2016	Action RecognitionTemporal Action Localization	—Unverified
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	—Unverified
Adversarial Framework for Unsupervised Learning of Motion Dynamics in Videos	Mar 24, 2018	Motion EstimationPrediction	—Unverified
Weakly-Supervised Action Localization and Action Recognition using Global-Local Attention of 3D CNN	Dec 17, 2020	Action ClassificationAction Localization	—Unverified
Weakly Supervised Gaussian Networks for Action Detection	Apr 16, 2019	Action DetectionAction Localization	—Unverified
Weakly Supervised Temporal Action Localization Through Contrast Based Evaluation Networks	Oct 1, 2019	Action ClassificationAction Localization	—Unverified
Weakly Supervised Temporal Action Localization with Segment-Level Labels	Jul 3, 2020	Action LocalizationTemporal Action Localization	—Unverified
Weakly Supervised Temporal Action Localization Through Learning Explicit Subspaces for Action and Context	Mar 30, 2021	Action LocalizationAction Recognition	—Unverified
Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling	Jun 20, 2021	Action LocalizationTemporal Action Localization	—Unverified
Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models	Jan 1, 2025	Action LocalizationTemporal Action Localization	—Unverified
We Can "See" You via Wi-Fi - WiFi Action Recognition via Vision-based Methods	Aug 19, 2016	Action RecognitionPerson Identification	—Unverified
What do 15,000 Object Categories Tell Us About Classifying and Localizing Actions?	Jun 1, 2015	Action ClassificationAction Recognition	—Unverified
What do I Annotate Next? An Empirical Study of Active Learning for Action Localization	Sep 1, 2018	Action LocalizationActive Learning	—Unverified
What have we learned from deep representations for action recognition?	Jan 4, 2018	Action RecognitionTemporal Action Localization	—Unverified
What If We Do Not Have Multiple Videos of the Same Action? -- Video Action Localization Using Web Images	Jun 1, 2016	Action LocalizationOptical Flow Estimation	—Unverified

Show:10 25 50

← PrevPage 19 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified