Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 1477 papers

Title	Date	Tasks	Status
Video Domain Incremental Learning for Human Action Recognition in Home Environments	Dec 22, 2024	Action Recognitionclass-incremental learning	—Unverified
Video Is Graph: Structured Graph Module for Video Action Recognition	Oct 12, 2021	Action RecognitionTemporal Action Localization	—Unverified
Video Jigsaw: Unsupervised Learning of Spatiotemporal Context for Video Action Recognition	Aug 22, 2018	Action RecognitionActivity Recognition	—Unverified
VideoLightFormer: Lightweight Action Recognition using Transformers	Jul 1, 2021	Action RecognitionTemporal Action Localization	—Unverified
Texture-Based Input Feature Selection for Action Recognition	Feb 28, 2023	Action RecognitionAnomaly Detection	—Unverified
Videoprompter: an ensemble of foundational models for zero-shot video understanding	Oct 23, 2023	Action RecognitionDescriptive	—Unverified
Video Representation Learning Using Discriminative Pooling	Mar 26, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization	May 7, 2023	Action LocalizationTemporal Action Localization	—Unverified
View-invariant action recognition	Sep 1, 2020	Action RecognitionRetrieval	—Unverified
View-invariant Deep Architecture for Human Action Recognition using late fusion	Dec 8, 2019	Action RecognitionSSIM	—Unverified
View invariant human action recognition using histograms of 3D joints	Jul 16, 2012	Action RecognitionSkeleton Based Action Recognition	—Unverified
View-Invariant Skeleton-based Action Recognition via Global-Local Contrastive Learning	Sep 23, 2022	Action RecognitionContrastive Learning	—Unverified
Viewpoint Invariant Action Recognition using RGB-D Videos	Sep 15, 2017	Action RecognitionTemporal Action Localization	—Unverified
Vision and Inertial Sensing Fusion for Human Action Recognition : A Review	Aug 2, 2020	Action RecognitionTemporal Action Localization	—Unverified
Vision Transformers for Action Recognition: A Survey	Sep 13, 2022	Action RecognitionDimensionality Reduction	—Unverified
Visual Attribute-augmented Three-dimensional Convolutional Neural Network for Enhanced Human Action Recognition	May 8, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos	Jan 15, 2025	Action RecognitionDecision Making	—Unverified
VLAD3: Encoding Dynamics of Deep Features for Action Recognition	Jun 1, 2016	Action RecognitionTemporal Action Localization	—Unverified
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	—Unverified
Adversarial Framework for Unsupervised Learning of Motion Dynamics in Videos	Mar 24, 2018	Motion EstimationPrediction	—Unverified
Weakly-Supervised Action Localization and Action Recognition using Global-Local Attention of 3D CNN	Dec 17, 2020	Action ClassificationAction Localization	—Unverified
Weakly Supervised Gaussian Networks for Action Detection	Apr 16, 2019	Action DetectionAction Localization	—Unverified
Weakly Supervised Temporal Action Localization Through Contrast Based Evaluation Networks	Oct 1, 2019	Action ClassificationAction Localization	—Unverified
Weakly Supervised Temporal Action Localization with Segment-Level Labels	Jul 3, 2020	Action LocalizationTemporal Action Localization	—Unverified
Weakly Supervised Temporal Action Localization Through Learning Explicit Subspaces for Action and Context	Mar 30, 2021	Action LocalizationAction Recognition	—Unverified
Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling	Jun 20, 2021	Action LocalizationTemporal Action Localization	—Unverified
Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models	Jan 1, 2025	Action LocalizationTemporal Action Localization	—Unverified
We Can "See" You via Wi-Fi - WiFi Action Recognition via Vision-based Methods	Aug 19, 2016	Action RecognitionPerson Identification	—Unverified
What do 15,000 Object Categories Tell Us About Classifying and Localizing Actions?	Jun 1, 2015	Action ClassificationAction Recognition	—Unverified
What do I Annotate Next? An Empirical Study of Active Learning for Action Localization	Sep 1, 2018	Action LocalizationActive Learning	—Unverified
What have we learned from deep representations for action recognition?	Jan 4, 2018	Action RecognitionTemporal Action Localization	—Unverified
What If We Do Not Have Multiple Videos of the Same Action? -- Video Action Localization Using Web Images	Jun 1, 2016	Action LocalizationOptical Flow Estimation	—Unverified
When Kernel Methods meet Feature Learning: Log-Covariance Network for Action Recognition from Skeletal Data	Aug 3, 2017	Action RecognitionTemporal Action Localization	—Unverified
When Spatial meets Temporal in Action Recognition	Nov 22, 2024	Action RecognitionTemporal Action Localization	—Unverified
Where and when to look? Spatial-temporal attention for action recognition in videos	May 1, 2019	Action RecognitionAction Recognition In Videos	—Unverified
YH Technologies at ActivityNet Challenge 2018	Jun 29, 2018	Action LocalizationAction Recognition	—Unverified
You Lead, We Exceed: Labor-Free Video Concept Learning by Jointly Exploiting Web Videos and Images	Jun 1, 2016	Action RecognitionEvent Detection	—Unverified
Zero-Shot Action Recognition in Videos: A Survey	Sep 13, 2019	Action RecognitionAction Recognition In Still Images	—Unverified
Zero-Shot Action Recognition With Error-Correcting Output Codes	Jul 1, 2017	Action RecognitionTemporal Action Localization	—Unverified
Zero-Shot Visual Recognition via Bidirectional Latent Embedding	Jul 7, 2016	Action RecognitionTemporal Action Localization	—Unverified
Enhancing Human Action Recognition and Violence Detection Through Deep Learning Audiovisual Fusion	Aug 4, 2024	Action RecognitionActivity Recognition	—Unverified
Online Temporal Action Localization with Memory-Augmented Transformer	Aug 6, 2024	Action LocalizationTemporal Action Localization	—Unverified
2D versus 3D Convolutional Spiking Neural Networks Trained with Unsupervised STDP for Human Action Recognition	May 26, 2022	Action RecognitionTemporal Action Localization	—Unverified
3D Action Recognition From Novel Viewpoints	Jun 1, 2016	3D Action RecognitionAction Recognition	—Unverified
3D Convolutional Neural Networks for Ultrasound-Based Silent Speech Interfaces	Apr 23, 2021	Action RecognitionTemporal Action Localization	—Unverified
3D Convolutional with Attention for Action Recognition	Jun 5, 2022	Action RecognitionOptical Flow Estimation	—Unverified
3DFCNN: Real-Time Action Recognition using 3D Deep Neural Networks with Raw Depth Information	Jun 13, 2020	Action RecognitionTemporal Action Localization	—Unverified
3D Human Action Recognition with Siamese-LSTM Based Deep Metric Learning	Jul 5, 2018	3D Action RecognitionAction Recognition	—Unverified
3D ResNet with Ranking Loss Function for Abnormal Activity Detection in Videos	Feb 4, 2020	Action DetectionAction Recognition	—Unverified
3D R Transform on Spatio-temporal Interest Points for Action Recognition	Jun 1, 2013	Action RecognitionTemporal Action Localization	—Unverified

Show:10 25 50

← PrevPage 20 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified