Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 1477 papers

Title	Date	Tasks	Status	Hype
Actor-identified Spatiotemporal Action Detection --- Detecting Who Is Doing What in Videos	Aug 27, 2022	Action ClassificationAction Detection	CodeCode Available	0
Adaptive Perception Transformer for Temporal Action Localization	Aug 25, 2022	Action LocalizationTemporal Action Localization	—Unverified	0
Enabling Weakly-Supervised Temporal Action Localization from On-Device Learning of the Video Stream	Aug 25, 2022	Action DetectionAction Localization	—Unverified	0
Progressive Cross-modal Knowledge Distillation for Human Action Recognition	Aug 17, 2022	Action RecognitionKnowledge Distillation	—Unverified	0
Temporal Action Localization with Multi-temporal Scales	Aug 16, 2022	Action ClassificationAction Localization	—Unverified	0
Two-person Graph Convolutional Network for Skeleton-based Human Interaction Recognition	Aug 12, 2022	Action ClassificationAction Recognition	CodeCode Available	0
Spatial-Temporal Pyramid Graph Reasoning for Action Recognition	Aug 9, 2022	Action RecognitionRepresentation Learning	—Unverified	0
BabyNet: A Lightweight Network for Infant Reaching Action Recognition in Unconstrained Environments to Support Future Pediatric Rehabilitation Applications	Aug 9, 2022	Action RecognitionTemporal Action Localization	—Unverified	0
Video-based Human Action Recognition using Deep Learning: A Review	Aug 7, 2022	Action RecognitionDeep Learning	—Unverified	0
Blockwise Temporal-Spatial Pathway Network	Aug 5, 2022	Action RecognitionTemporal Action Localization	—Unverified	0
Privacy-Preserving Action Recognition via Motion Difference Quantization	Aug 4, 2022	Action RecognitionPrivacy Preserving	CodeCode Available	1
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos	Aug 3, 2022	Action LocalizationEmotion Classification	CodeCode Available	0
Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action Recognition	Aug 3, 2022	Action RecognitionAttribute	—Unverified	0
Unsupervised Domain Adaptation for Video Transformers in Action Recognition	Jul 26, 2022	Action RecognitionDomain Adaptation	CodeCode Available	0
Real-Time Elderly Monitoring for Senior Safety by Lightweight Human Action Recognition	Jul 21, 2022	Action RecognitionPrivacy Preserving	—Unverified	0
HTNet: Anchor-free Temporal Action Localization with Hierarchical Transformers	Jul 20, 2022	Action LocalizationTemporal Action Localization	—Unverified	0
Time Is MattEr: Temporal Self-supervision for Video Transformers	Jul 19, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	1
LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training	Jul 16, 2022	Action RecognitionContrastive Learning	—Unverified	0
ReAct: Temporal Action Detection with Relational Queries	Jul 14, 2022	Action ClassificationAction Detection	CodeCode Available	1
Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization	Jul 14, 2022	Action LocalizationClassification	—Unverified	0
Proposal-Free Temporal Action Detection via Global Segmentation Mask Learning	Jul 14, 2022	Action DetectionRepresentation Learning	CodeCode Available	1
Skeletal Human Action Recognition using Hybrid Attention based Graph Convolutional Network	Jul 12, 2022	Action RecognitionImage Description	CodeCode Available	0
Large-scale Robustness Analysis of Video Action Recognition Models	Jul 4, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	0
Spatial Transformer Network with Transfer Learning for Small-scale Fine-grained Skeleton-based Tai Chi Action Recognition	Jun 30, 2022	Action RecognitionTemporal Action Localization	—Unverified	0
ST-Adapter: Parameter-Efficient Image-to-Video Transfer Learning	Jun 27, 2022	Action ClassificationAction Recognition	CodeCode Available	1
Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization	Jun 23, 2022	Action LocalizationTemporal Action Localization	—Unverified	0
Weakly-Supervised Temporal Action Localization by Progressive Complementary Learning	Jun 22, 2022	Action LocalizationMultiple Instance Learning	CodeCode Available	0
temporal driver action Localization using action classifications method	Jun 11, 2022	Action ClassificationAction Localization	CodeCode Available	0
Learn2Augment: Learning to Composite Videos for Data Augmentation in Action Recognition	Jun 9, 2022	Action RecognitionData Augmentation	—Unverified	0
PrivHAR: Recognizing Human Actions From Privacy-preserving Lens	Jun 8, 2022	Action RecognitionActivity Recognition	—Unverified	0
TadML: A fast temporal action detection with Mechanics-MLP	Jun 7, 2022	Action DetectionOptical Flow Estimation	CodeCode Available	0
3D Convolutional with Attention for Action Recognition	Jun 5, 2022	Action RecognitionOptical Flow Estimation	—Unverified	0
Self-supervised Learning of Audio Representations from Audio-Visual Data using Spatial Alignment	Jun 2, 2022	Acoustic Scene ClassificationAction Recognition	—Unverified	0
A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications	Jun 2, 2022	Action RecognitionSports Analytics	CodeCode Available	3
MMNet: A Model-Based Multimodal Network for Human Action Recognition in RGB-D Videos	May 26, 2022	Action ClassificationAction Recognition	CodeCode Available	1
2D versus 3D Convolutional Spiking Neural Networks Trained with Unsupervised STDP for Human Action Recognition	May 26, 2022	Action RecognitionTemporal Action Localization	—Unverified	0
GraSens: A Gabor Residual Anti-aliasing Sensing Framework for Action Recognition using WiFi	May 24, 2022	Action RecognitionTemporal Action Localization	—Unverified	0
Structured Attention Composition for Temporal Action Localization	May 20, 2022	Action DetectionAction Localization	CodeCode Available	2
Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement	May 7, 2022	Action RecognitionDenoising	—Unverified	0
BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection	May 5, 2022	Action Detectionobject-detection	CodeCode Available	1
Handcrafted localized phase features for human action recognition	May 5, 2022	Action ClassificationAction Recognition	—Unverified	0
Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization	May 1, 2022	Action LocalizationData Augmentation	CodeCode Available	1
Contrastive Language-Action Pre-training for Temporal Localization	Apr 26, 2022	Action LocalizationContrastive Learning	—Unverified	0
Unsupervised Human Action Recognition with Skeletal Graph Laplacian and Self-Supervised Viewpoints Invariance	Apr 21, 2022	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	0
A Survey of Video-based Action Quality Assessment	Apr 20, 2022	Action Quality AssessmentAction Recognition	—Unverified	0
ActAR: Actor-Driven Pose Embeddings for Video Action Recognition	Apr 19, 2022	Action RecognitionOptical Flow Estimation	—Unverified	0
Invisible-to-Visible: Privacy-Aware Human Instance Segmentation using Airborne Ultrasound via Collaborative Learning Variational Autoencoder	Apr 15, 2022	Action RecognitionAction Understanding	—Unverified	0
E^2TAD: An Energy-Efficient Tracking-based Action Detector	Apr 9, 2022	Action DetectionAction Localization	CodeCode Available	1
Frequency Selective Augmentation for Video Representation Learning	Apr 8, 2022	Action LocalizationAction Recognition	—Unverified	0
An Empirical Study of End-to-End Temporal Action Detection	Apr 6, 2022	Action ClassificationAction Detection	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified