Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1477 papers

Title	Date	Tasks	Status	Hype
TSGCNeXt: Dynamic-Static Multi-Graph Convolution for Efficient Skeleton-Based Action Recognition with Long-term Learning Potential	Apr 23, 2023	Action RecognitionGraph Learning	CodeCode Available	1
A baseline on continual learning methods for video action recognition	Apr 20, 2023	Action RecognitionContinual Learning	—Unverified	0
Self-Supervised 3D Action Representation Learning with Skeleton Cloud Colorization	Apr 18, 2023	3D Action RecognitionAction Recognition	—Unverified	0
Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels	Apr 17, 2023	Action LocalizationPseudo Label	CodeCode Available	1
NEV-NCD: Negative Learning, Entropy, and Variance regularization based novel action categories discovery	Apr 14, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0
PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action Recognition	Apr 14, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0
DeepSegmenter: Temporal Action Localization for Detecting Anomalies in Untrimmed Naturalistic Driving Videos	Apr 13, 2023	Action LocalizationClassification	CodeCode Available	0
WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition	Apr 11, 2023	Action DetectionAction Localization	CodeCode Available	1
A real-time algorithm for human action recognition in RGB and thermal video	Apr 4, 2023	Action RecognitionGPU	—Unverified	0
Improve Temporal Action Proposals using Hierarchical Context	Apr 3, 2023	Action DetectionTemporal Action Localization	—Unverified	0
On the Benefits of 3D Pose and Tracking for Human Action Recognition	Apr 3, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	2
Dual Contrastive Prediction for Incomplete Multi-view Representation Learning	Apr 1, 2023	Action RecognitionContrastive Learning	CodeCode Available	1
STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition	Mar 31, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	1
JCDNet: Joint of Common and Definite phases Network for Weakly Supervised Temporal Action Localization	Mar 30, 2023	Action LocalizationMultiple Instance Learning	—Unverified	0
HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices	Mar 30, 2023	Action RecognitionScheduling	CodeCode Available	0
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking	Mar 29, 2023	Action ClassificationAction Recognition	CodeCode Available	2
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding	Mar 28, 2023	Action LocalizationAction Recognition	—Unverified	0
Unified Keypoint-based Action Recognition Framework via Structured Keypoint Pooling	Mar 27, 2023	Action LocalizationAction Recognition	—Unverified	0
Multi-view knowledge distillation transformer for human action recognition	Mar 25, 2023	Action RecognitionKnowledge Distillation	—Unverified	0
A Large-scale Study of Spatiotemporal Representation Learning with a New Benchmark on Action Recognition	Mar 23, 2023	Action RecognitionDomain Adaptation	CodeCode Available	1
Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature	Mar 22, 2023	Action LocalizationPseudo Label	CodeCode Available	0
Multi-modal Prompting for Low-Shot Temporal Action Localization	Mar 21, 2023	Action ClassificationAction Localization	—Unverified	0
Video Action Recognition with Attentive Semantic Units	Mar 17, 2023	Action RecognitionDecoder	—Unverified	0
Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances	Mar 17, 2023	Action RecognitionDomain Adaptation	CodeCode Available	1
TemporalMaxer: Maximize Temporal Context with only Max Pooling for Temporal Action Localization	Mar 16, 2023	Action LocalizationTemporal Action Localization	CodeCode Available	1
Co-Occurrence Matters: Learning Action Relation for Temporal Action Localization	Mar 15, 2023	Action LocalizationRelation	—Unverified	0
TriDet: Temporal Action Detection with Relative Boundary Modeling	Mar 13, 2023	Action DetectionTemporal Action Localization	CodeCode Available	2
Learning Discriminative Representations for Skeleton Based Action Recognition	Mar 7, 2023	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
Faster Learning of Temporal Action Proposal via Sparse Multilevel Boundary Generator	Mar 6, 2023	Action LocalizationTemporal Action Localization	CodeCode Available	0
MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action Recognition	Mar 5, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0
AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning	Mar 2, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Texture-Based Input Feature Selection for Action Recognition	Feb 28, 2023	Action RecognitionAnomaly Detection	—Unverified	0
Multi-scale Motion-Aware Module for Video Action Recognition	Feb 19, 2023	Action RecognitionGPU	—Unverified	0
Table Tennis Stroke Detection and Recognition Using Ball Trajectory Data	Feb 19, 2023	Action Recognitionobject-detection	—Unverified	0
Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer	Feb 17, 2023	Action RecognitionAction Recognition In Videos	CodeCode Available	0
AIM: Adapting Image Models for Efficient Video Action Recognition	Feb 6, 2023	Action ClassificationAction Recognition	CodeCode Available	2
Skeleton-based Human Action Recognition via Convolutional Neural Networks (CNN)	Jan 31, 2023	Action RecognitionComputational Efficiency	—Unverified	0
Action Capsules: Human Skeleton Action Recognition	Jan 30, 2023	Action RecognitionSkeleton Based Action Recognition	—Unverified	0
Temporal Perceiving Video-Language Pre-training	Jan 18, 2023	Action LocalizationContrastive Learning	—Unverified	0
CNN-Based Action Recognition and Pose Estimation for Classifying Animal Behavior from Videos: A Survey	Jan 15, 2023	Action RecognitionPose Estimation	—Unverified	0
CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition	Jan 15, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Ego-Only: Egocentric Action Detection without Exocentric Transferring	Jan 3, 2023	Action DetectionAction Localization	—Unverified	0
Look, Listen, and Attack: Backdoor Attacks Against Video Action Recognition	Jan 3, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Anchor-free temporal action localization via Progressive Boundary-aware Boosting	Jan 1, 2023	Action LocalizationTemporal Action Localization	CodeCode Available	0
Boosting Positive Segments for Weakly-Supervised Audio-Visual Video Parsing	Jan 1, 2023	Action LocalizationMultiple Instance Learning	CodeCode Available	0
Growing a Brain with Sparsity-Inducing Generation for Continual Learning	Jan 1, 2023	Action RecognitionContinual Learning	CodeCode Available	0
ReGen: A good Generative Zero-Shot Video Classifier Should be Rewarded	Jan 1, 2023	Action ClassificationAction Recognition	—Unverified	0
Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Localization	Jan 1, 2023	Action LocalizationPseudo Label	CodeCode Available	0
Two-Stream Networks for Weakly-Supervised Temporal Action Localization With Semantic-Aware Mechanisms	Jan 1, 2023	Action LocalizationMultiple Instance Learning	—Unverified	0
Cascade Evidential Learning for Open-World Weakly-Supervised Temporal Action Localization	Jan 1, 2023	Action LocalizationOpen Set Learning	—Unverified	0

Show:10 25 50

← PrevPage 6 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified