Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 1477 papers

Title	Date	Tasks	Status
Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization	Oct 5, 2023	Action LocalizationTemporal Action Localization	—Unverified
Multi-scale Motion-Aware Module for Video Action Recognition	Feb 19, 2023	Action RecognitionGPU	—Unverified
Multi-Scale Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition	Nov 7, 2021	Action RecognitionSkeleton Based Action Recognition	—Unverified
Multi-Task Clustering of Human Actions by Sharing Information	Jul 1, 2017	Action RecognitionClustering	—Unverified
Multitask Non-Autoregressive Model for Human Motion Prediction	Jul 13, 2020	Action RecognitionDecoder	—Unverified
Multi-task Sparse Learning with Beta Process Prior for Action Recognition	Jun 1, 2013	Action RecognitionSparse Learning	—Unverified
Multi-Task Zero-Shot Action Recognition with Prioritised Data Augmentation	Nov 26, 2016	Action RecognitionData Augmentation	—Unverified
Multi-velocity neural networks for gesture recognition in videos	Mar 22, 2016	Action RecognitionGeneral Classification	—Unverified
Multiview Cauchy Estimator Feature Embedding for Depth and Inertial Sensor-Based Human Action Recognition	Aug 7, 2016	Action RecognitionTemporal Action Localization	—Unverified
Multiview Hessian regularized logistic regression for action recognition	Mar 3, 2014	Action RecognitionAttribute	—Unverified
Multi-view knowledge distillation transformer for human action recognition	Mar 25, 2023	Action RecognitionKnowledge Distillation	—Unverified
Multi-View Region Adaptive Multi-temporal DMM and RGB Action Recognition	Apr 12, 2019	Action RecognitionHuman-Object Interaction Detection	—Unverified
Multi-View Super Vector for Action Recognition	Jun 1, 2014	Action RecognitionTemporal Action Localization	—Unverified
Musical Chair: Efficient Real-Time Recognition Using Collaborative IoT Devices	Feb 5, 2018	Action RecognitionCPU	—Unverified
Mutual Context Network for Jointly Estimating Egocentric Gaze and Actions	Jan 7, 2019	Action RecognitionGaze Prediction	—Unverified
Natural Language Descriptions for Human Activities in Video Streams	Sep 1, 2017	Action RecognitionLanguage Modeling	—Unverified
Neural Graph Matching Networks for Fewshot 3D Action Recognition	Sep 1, 2018	3D Action RecognitionAction Recognition	—Unverified
Representation Learning on Visual-Symbolic Graphs for Video Understanding	May 17, 2019	Action ClassificationAction Detection	—Unverified
Non-Linear Temporal Subspace Representations for Activity Recognition	Mar 27, 2018	Action RecognitionActivity Recognition	—Unverified
Nrityantar: Pose oblivious Indian classical dance sequence classification system	Dec 13, 2018	Action RecognitionClassification	—Unverified
Object Activity Scene Description, Construction and Recognition	May 1, 2018	Action RecognitionGeneral Classification	—Unverified
Object-Relation Reasoning Graph for Action Recognition	Jan 1, 2022	Action RecognitionAttribute	—Unverified
ODN: Opening the Deep Network for Open-set Action Recognition	Jan 23, 2019	Action RecognitionOpen Set Action Recognition	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
One-Shot Action Localization by Learning Sequence Matching Network	Jun 1, 2018	Action DetectionAction Localization	—Unverified
Online Action Recognition based on Incremental Learning of Weighted Covariance Descriptors	Nov 10, 2015	Action RecognitionIncremental Learning	—Unverified
On the Importance of Video Action Recognition for Visual Lipreading	Mar 22, 2019	Action RecognitionLipreading	—Unverified
On the Integration of Optical Flow and Action Recognition	Dec 22, 2017	Action RecognitionOptical Flow Estimation	—Unverified
On the Role of Event Boundaries in Egocentric Activity Recognition from Photostreams	Sep 2, 2018	Action RecognitionActivity Recognition	—Unverified
Open-Vocabulary Temporal Action Localization using Multimodal Guidance	Jun 21, 2024	Action LocalizationLanguage Modelling	—Unverified
Order-aware Convolutional Pooling for Video Based Action Recognition	Jan 31, 2016	Action RecognitionTemporal Action Localization	—Unverified
Ordered Pooling of Optical Flow Sequences for Action Recognition	Jan 12, 2017	Action RecognitionOptical Flow Estimation	—Unverified
Origami: A 803 GOp/s/W Convolutional Network Accelerator	Dec 14, 2015	Action RecognitionObject Recognition	—Unverified
OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos	Feb 10, 2022	Action LocalizationTemporal Action Localization	—Unverified
OwlSight: A Robust Illumination Adaptation Framework for Dark Video Human Action Recognition	Mar 30, 2025	Action ClassificationAction Recognition	—Unverified
PA3D: Pose-Action 3D Machine for Video Recognition	Jun 1, 2019	Action RecognitionOptical Flow Estimation	—Unverified
Pairwise Linear Regression Classification for Image Set Retrieval	Jun 1, 2016	Action RecognitionClassification	—Unverified
Parallel Separable 3D Convolution for Video and Volumetric Data Understanding	Sep 11, 2018	Action RecognitionBrain Segmentation	—Unverified
PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition	Apr 17, 2025	Action RecognitionAction Understanding	—Unverified
PcmNet: Position-Sensitive Context Modeling Network for Temporal Action Localization	Mar 9, 2021	Action LocalizationBoundary Detection	—Unverified
P-CNN: Pose-based CNN Features for Action Recognition	Jun 11, 2015	Action RecognitionTemporal Action Localization	—Unverified
PERF-Net: Pose Empowered RGB-Flow Net	Sep 28, 2020	Action ClassificationAction Recognition	—Unverified
Per-Sample Kernel Adaptation for Visual Recognition and Grouping	Dec 1, 2015	Action RecognitionAction Recognition In Videos	—Unverified
Persistent Homology of Attractors For Action Recognition	Mar 16, 2016	Action RecognitionTemporal Action Localization	—Unverified
PeVL: Pose-Enhanced Vision-Language Model for Fine-Grained Human Action Recognition	Jan 1, 2024	Action RecognitionContrastive Learning	—Unverified
PGCN-TCA: Pseudo Graph Convolutional Network With Temporal and Channel-Wise Attention for Skeleton-Based Action Recognition	Jan 6, 2020	Action RecognitionSkeleton Based Action Recognition	—Unverified
PhysPT: Physics-aware Pretrained Transformer for Estimating Human Dynamics from Monocular Videos	Apr 5, 2024	Action RecognitionDecoder	—Unverified
Pillar Networks++: Distributed non-parametric deep and wide networks	Aug 18, 2017	Action RecognitionGaussian Processes	—Unverified
PivoTAL: Prior-Driven Supervision for Weakly-Supervised Temporal Action Localization	Jan 1, 2023	Action LocalizationTemporal Action Localization	—Unverified
PKU-MMD: A Large Scale Benchmark for Continuous Multi-Modal Human Action Understanding	Mar 22, 2017	Action DetectionAction Recognition	—Unverified

Show:10 25 50

← PrevPage 23 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified