Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1477 papers

Title	Date	Tasks	Status
Knowledge Fusion Transformers for Video Action Recognition	Sep 29, 2020	Action ClassificationAction Recognition	—Unverified
Event-based Action Recognition Using Timestamp Image Encoding Network	Sep 28, 2020	Action RecognitionGesture Recognition	—Unverified
PERF-Net: Pose Empowered RGB-Flow Net	Sep 28, 2020	Action ClassificationAction Recognition	—Unverified
Collaborative Distillation in the Parameter and Spectrum Domains for Video Action Recognition	Sep 15, 2020	Action RecognitionKnowledge Distillation	—Unverified
View-invariant action recognition	Sep 1, 2020	Action RecognitionRetrieval	—Unverified
Boundary Uncertainty in a Single-Stage Temporal Action Localization Network	Aug 25, 2020	Action LocalizationTemporal Action Localization	—Unverified
Two-Stream Networks for Lane-Change Prediction of Surrounding Vehicles	Aug 25, 2020	Action RecognitionPrediction	—Unverified
Temporal Action Localization with Variance-Aware Networks	Aug 25, 2020	Action Localizationregression	—Unverified
Towards Improved Human Action Recognition Using Convolutional Neural Networks and Multimodal Fusion of Depth and Inertial Sensor Data	Aug 22, 2020	Action RecognitionTemporal Action Localization	—Unverified
Multidomain Multimodal Fusion For Human Action Recognition Using Inertial Sensors	Aug 22, 2020	Action RecognitionTemporal Action Localization	—Unverified
Accuracy and Performance Comparison of Video Action Recognition Approaches	Aug 20, 2020	Action RecognitionTemporal Action Localization	—Unverified
CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization	Aug 19, 2020	Action DetectionAction Localization	—Unverified
Equivalent Classification Mapping for Weakly Supervised Temporal Action Localization	Aug 18, 2020	Action LocalizationClassification	—Unverified
ConvGRU in Fine-grained Pitching Action Recognition for Action Outcome Prediction	Aug 18, 2020	Action RecognitionFine-grained Action Recognition	CodeCode Available
Richly Activated Graph Convolutional Network for Robust Skeleton-based Action Recognition	Aug 9, 2020	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
Single-stage intake gesture detection using CTC loss and extended prefix beam search	Aug 7, 2020	Temporal Action Localization	CodeCode Available
Boundary Content Graph Neural Network for Temporal Action Proposal Generation	Aug 4, 2020	Action DetectionAction Understanding	—Unverified
Residual Frames with Efficient Pseudo-3D CNN for Human Action Recognition	Aug 3, 2020	Action RecognitionOptical Flow Estimation	—Unverified
Vision and Inertial Sensing Fusion for Human Action Recognition : A Review	Aug 2, 2020	Action RecognitionTemporal Action Localization	—Unverified
Learning Actionness via Long-range Temporal Order Verification	Aug 1, 2020	Action LocalizationAction Recognition	—Unverified
Shuffle and Attend: Video Domain Adaptation	Aug 1, 2020	Action RecognitionDomain Adaptation	—Unverified
Mix Dimension in Poincaré Geometry for 3D Skeleton-based Action Recognition	Jul 30, 2020	Action RecognitionAnatomy	—Unverified
Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos	Jul 22, 2020	Action RecognitionTemporal Action Localization	—Unverified
Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human Action Recognition	Jul 22, 2020	Action RecognitionTemporal Action Localization	—Unverified
Hierarchical Contrastive Motion Learning for Video Action Recognition	Jul 20, 2020	Action RecognitionContrastive Learning	—Unverified
Complementary Boundary Generator with Scale-Invariant Relation Modeling for Temporal Action Localization: Submission to ActivityNet Challenge 2020	Jul 20, 2020	Action LocalizationDiversity	—Unverified
Multitask Non-Autoregressive Model for Human Motion Prediction	Jul 13, 2020	Action RecognitionDecoder	—Unverified
Representation Learning via Adversarially-Contrastive Optimal Transport	Jul 11, 2020	Action RecognitionContrastive Learning	—Unverified
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision	Jul 8, 2020	Acoustic Scene ClassificationAction Recognition	—Unverified
Complex Human Action Recognition in Live Videos Using Hybrid FR-DL Method	Jul 6, 2020	Action RecognitionArticles	—Unverified
Weakly Supervised Temporal Action Localization with Segment-Level Labels	Jul 3, 2020	Action LocalizationTemporal Action Localization	—Unverified
JUMPS: Joints Upsampling Method for Pose Sequences	Jul 2, 2020	Action RecognitionPose Estimation	—Unverified
Path Signatures on Lie Groups	Jul 2, 2020	Action RecognitionTemporal Action Localization	CodeCode Available
Roweisposes, Including Eigenposes, Supervised Eigenposes, and Fisherposes, for 3D Action Recognition	Jun 28, 2020	3D Action RecognitionAction Recognition	CodeCode Available
3DFCNN: Real-Time Action Recognition using 3D Deep Neural Networks with Raw Depth Information	Jun 13, 2020	Action RecognitionTemporal Action Localization	—Unverified
Exploiting the ConvLSTM: Human Action Recognition using Raw Depth Video-Based Recurrent Neural Networks	Jun 13, 2020	Action RecognitionObject Recognition	—Unverified
DTG-Net: Differentiated Teachers Guided Self-Supervised Video Action Recognition	Jun 13, 2020	Action Recognitionimage-classification	—Unverified
Temporal Fusion Network for Temporal Action Localization:Submission to ActivityNet Challenge 2020 (Task E)	Jun 13, 2020	Action ClassificationAction Localization	—Unverified
Learning Temporal Co-Attention Models for Unsupervised Video Action Localization	Jun 1, 2020	Action LocalizationClustering	CodeCode Available
Regularization on Spatio-Temporally Smoothed Feature for Action Recognition	Jun 1, 2020	Action RecognitionTemporal Action Localization	—Unverified
Context Aware Graph Convolution for Skeleton-Based Action Recognition	Jun 1, 2020	Action RecognitionSkeleton Based Action Recognition	—Unverified
Action recognition in real-world videos	Apr 22, 2020	Action RecognitionTemporal Action Localization	—Unverified
Combining Deep Learning Classifiers for 3D Action Recognition	Apr 21, 2020	3D Action RecognitionAction Recognition	—Unverified
Spatiotemporal Fusion in 3D CNNs: A Probabilistic View	Apr 10, 2020	Action RecognitionAction Recognition In Videos	—Unverified
What and Where: Modeling Skeletons from Semantic and Spatial Perspectives for Action Recognition	Apr 7, 2020	Action RecognitionGesture Recognition	—Unverified
Human action recognition with a large-scale brain-inspired photonic computer	Apr 6, 2020	Action RecognitionBrain Computer Interface	—Unverified
Ensembles of Deep Neural Networks for Action Recognition in Still Images	Mar 22, 2020	Action ClassificationAction Recognition	—Unverified
A Novel Online Action Detection Framework from Untrimmed Video Streams	Mar 17, 2020	Action DetectionAction Localization	—Unverified
Skeleton Based Action Recognition using a Stacked Denoising Autoencoder with Constraints of Privileged Information	Mar 12, 2020	Action RecognitionDenoising	—Unverified
Unifying Graph Embedding Features with Graph Convolutional Networks for Skeleton-based Action Recognition	Mar 6, 2020	Action RecognitionGraph Embedding	—Unverified

Show:10 25 50

← PrevPage 14 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified