Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 1477 papers

Title	Date	Tasks	Status
Spatio-Temporal Instance Learning: Action Tubes from Class Supervision	Jul 8, 2018	Action LocalizationMultiple Instance Learning	—Unverified
A Variational Time Series Feature Extractor for Action Prediction	Jul 6, 2018	Action RecognitionPrediction	CodeCode Available
A Survey of Knowledge Representation in Service Robotics	Jul 5, 2018	Activity RecognitionBIG-bench Machine Learning	—Unverified
3D Human Action Recognition with Siamese-LSTM Based Deep Metric Learning	Jul 5, 2018	3D Action RecognitionAction Recognition	—Unverified
Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization	Jun 30, 2018	Action RecognitionAudio Classification	—Unverified
Action Recognition for Depth Video using Multi-view Dynamic Images	Jun 29, 2018	Action RecognitionOptical Flow Estimation	CodeCode Available
A Novel Geometric Framework on Gram Matrix Trajectories for Human Behavior Understanding	Jun 29, 2018	Action RecognitionEmotion Recognition	—Unverified
YH Technologies at ActivityNet Challenge 2018	Jun 29, 2018	Action LocalizationAction Recognition	—Unverified
Modeling Spatio-Temporal Human Track Structure for Action Localization	Jun 28, 2018	Action LocalizationHuman Detection	—Unverified
Human Action Recognition and Prediction: A Survey	Jun 28, 2018	Action RecognitionAutonomous Driving	—Unverified
Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition	Jun 27, 2018	Action RecognitionTemporal Action Localization	—Unverified
CNN-based Action Recognition and Supervised Domain Adaptation on 3D Body Skeletons via Kernel Feature Maps	Jun 24, 2018	Action RecognitionDomain Adaptation	—Unverified
Learning Multimodal Representations for Unseen Activities	Jun 21, 2018	General ClassificationTemporal Action Localization	CodeCode Available
Classifying Object Manipulation Actions based on Grasp-types and Motion-Constraints	Jun 20, 2018	Action RecognitionObject	—Unverified
Modality Distillation with Multiple Stream Networks for Action Recognition	Jun 19, 2018	Action ClassificationAction Detection	CodeCode Available
Two Stream Self-Supervised Learning for Action Recognition	Jun 16, 2018	Action RecognitionRepresentation Learning	—Unverified
Massively Parallel Video Networks	Jun 11, 2018	Action RecognitionTemporal Action Localization	—Unverified
Action4D: Real-time Action Recognition in the Crowd and Clutter	Jun 6, 2018	Action RecognitionTemporal Action Localization	—Unverified
Squeeze-and-Excitation on Spatial and Temporal Deep Feature Space for Action Recognition	Jun 2, 2018	Action RecognitionTemporal Action Localization	—Unverified
SSNet: Scale Selection Network for Online 3D Action Prediction	Jun 1, 2018	Action RecognitionPrediction	—Unverified
Geometry Guided Convolutional Neural Networks for Self-Supervised Video Representation Learning	Jun 1, 2018	Action RecognitionRepresentation Learning	—Unverified
Recognizing Human Actions as the Evolution of Pose Estimation Maps	Jun 1, 2018	Action RecognitionMultimodal Activity Recognition	—Unverified
Making Convolutional Networks Recurrent for Visual Sequence Learning	Jun 1, 2018	Action RecognitionFace Alignment	—Unverified
Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition	Jun 1, 2018	Action RecognitionDeep Reinforcement Learning	—Unverified
One-Shot Action Localization by Learning Sequence Matching Network	Jun 1, 2018	Action DetectionAction Localization	—Unverified
MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition	Jun 1, 2018	Action RecognitionTemporal Action Localization	—Unverified
Temporal Hallucinating for Action Recognition With Few Still Images	Jun 1, 2018	Action RecognitionAction Recognition In Still Images	—Unverified
Pulling Actions out of Context: Explicit Separation for Effective Combination	Jun 1, 2018	Action RecognitionTemporal Action Localization	—Unverified
RNN for Affects at SemEval-2018 Task 1: Formulating Affect Identification as a Binary Classification Problem	Jun 1, 2018	Action RecognitionBinary Classification	—Unverified
Learning and Using the Arrow of Time	Jun 1, 2018	Action RecognitionSelf-Supervised Action Recognition	—Unverified
Recognize Actions by Disentangling Components of Dynamics	Jun 1, 2018	Action RecognitionOptical Flow Estimation	—Unverified
PoseFlow: A Deep Motion Representation for Understanding Human Behaviors in Videos	Jun 1, 2018	Action RecognitionOptical Flow Estimation	—Unverified
Coding Kendall's Shape Trajectories for 3D Action Recognition	Jun 1, 2018	3D Action RecognitionAction Recognition	—Unverified
PoTion: Pose MoTion Representation for Action Recognition	Jun 1, 2018	Action RecognitionSkeleton Based Action Recognition	—Unverified
A Fine-to-Coarse Convolutional Neural Network for 3D Human Action Recognition	May 30, 2018	3D Action RecognitionAction Recognition	—Unverified
Pose-Based Two-Stream Relational Networks for Action Recognition in Videos	May 22, 2018	Action RecognitionAction Recognition In Videos	—Unverified
DEEPEYE: A Compact and Accurate Video Comprehension at Terminal Devices Compressed with Quantization and Tensorization	May 21, 2018	Action RecognitionGeneral Classification	—Unverified
Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition	May 20, 2018	3D Action RecognitionAction Recognition	CodeCode Available
Graph Edge Convolutional Neural Networks for Skeleton Based Action Recognition	May 16, 2018	Action RecognitionPose Estimation	—Unverified
Fast Retinomorphic Event Stream for Video Recognition and Reinforcement Learning	May 16, 2018	Action RecognitionAtari Games	—Unverified
Towards an Unequivocal Representation of Actions	May 10, 2018	Action RecognitionRetrieval	—Unverified
Visual Attribute-augmented Three-dimensional Convolutional Neural Network for Enhanced Human Action Recognition	May 8, 2018	Action RecognitionAction Recognition In Videos	—Unverified
Low-Latency Human Action Recognition with Weighted Multi-Region Convolutional Neural Network	May 8, 2018	Action RecognitionChunking	—Unverified
Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning	May 7, 2018	Action RecognitionGraph Neural Network	—Unverified
Learning Optical Flow via Dilated Networks and Occlusion Reasoning	May 7, 2018	Action RecognitionOptical Flow Estimation	—Unverified
Relational Network for Skeleton-Based Action Recognition	May 7, 2018	Action RecognitionSkeleton Based Action Recognition	—Unverified
Object Activity Scene Description, Construction and Recognition	May 1, 2018	Action RecognitionGeneral Classification	—Unverified
Actor and Observer: Joint Modeling of First and Third-Person Videos	Apr 25, 2018	Action RecognitionTemporal Action Localization	CodeCode Available
Memory Attention Networks for Skeleton-based Action Recognition	Apr 23, 2018	Action RecognitionSkeleton Based Action Recognition	CodeCode Available
View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition	Apr 20, 2018	Action RecognitionSkeleton Based Action Recognition	CodeCode Available

Show:10 25 50

← PrevPage 20 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified