Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 1477 papers

Title	Date	Tasks	Status	Hype
An Empirical Study of End-to-End Temporal Action Detection	Apr 6, 2022	Action ClassificationAction Detection	CodeCode Available	1
Direct Dense Pose Estimation	Apr 4, 2022	Action RecognitionPose Estimation	—Unverified	0
TALLFormer: Temporal Action Localization with a Long-memory Transformer	Apr 4, 2022	Action LocalizationAction Recognition	CodeCode Available	1
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization	Mar 31, 2022	Action LocalizationClassification	CodeCode Available	1
ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization	Mar 29, 2022	Temporal Action LocalizationWeakly-supervised Temporal Action Localization	CodeCode Available	1
Unsupervised Pre-training for Temporal Action Localization Tasks	Mar 25, 2022	Action LocalizationContrastive Learning	CodeCode Available	1
Continual Spatio-Temporal Graph Convolutional Networks	Mar 21, 2022	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
LocATe: End-to-end Localization of Actions in 3D with Transformers	Mar 21, 2022	Action LocalizationAction Recognition	—Unverified	0
DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition	Mar 19, 2022	Action ClassificationAction Recognition	CodeCode Available	1
Gate-Shift-Fuse for Video Action Recognition	Mar 16, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	0
Context-LSTM: a robust classifier for video detection on UCF101	Mar 13, 2022	Action DetectionAction Recognition	—Unverified	0
End-to-End Semantic Video Transformer for Zero-Shot Action Recognition	Mar 10, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	0
OpenTAL: Towards Open Set Temporal Action Localization	Mar 10, 2022	Action ClassificationAction Localization	CodeCode Available	1
Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation	Mar 6, 2022	Action LocalizationPseudo Label	CodeCode Available	1
Continuous Human Action Recognition for Human-Machine Interaction: A Review	Feb 26, 2022	Action RecognitionAction Segmentation	—Unverified	0
On Modality Bias Recognition and Reduction	Feb 25, 2022	Action RecognitionMulti-modal Classification	CodeCode Available	0
ActionFormer: Localizing Moments of Actions with Transformers	Feb 16, 2022	Action LocalizationAction Recognition	CodeCode Available	2
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs	Feb 16, 2022	Action LocalizationTemporal Action Localization	CodeCode Available	0
OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos	Feb 10, 2022	Action LocalizationTemporal Action Localization	—Unverified	0
Joint-bone Fusion Graph Convolutional Network for Semi-supervised Skeleton Action Recognition	Feb 8, 2022	Action RecognitionDecoder	—Unverified	0
CZU-MHAD: A multimodal dataset for human action recognition utilizing a depth camera and 10 wearable inertial sensors	Feb 7, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	1
Benchmarking Conventional Vision Models on Neuromorphic Fall Detection and Action Recognition Dataset	Jan 28, 2022	Action RecognitionBenchmarking	—Unverified	0
Semantically Video Coding: Instill Static-Dynamic Clues into Structured Bitstream for AI Tasks	Jan 25, 2022	Action RecognitionObject	—Unverified	0
Semantic Labeling of Human Action For Visually Impaired And Blind People Scene Interaction	Jan 12, 2022	Action RecognitionTemporal Action Localization	—Unverified	0
Recurring the Transformer for Video Action Recognition	Jan 1, 2022	Action RecognitionGPU	—Unverified	0
Complex Video Action Reasoning via Learnable Markov Logic Network	Jan 1, 2022	Action RecognitionHuman-Object Interaction Detection	—Unverified	0
Exploring Denoised Cross-Video Contrast for Weakly-Supervised Temporal Action Localization	Jan 1, 2022	Action LocalizationContrastive Learning	—Unverified	0
Interact Before Align: Leveraging Cross-Modal Knowledge for Domain Adaptive Action Recognition	Jan 1, 2022	Action RecognitionTemporal Action Localization	—Unverified	0
Object-Relation Reasoning Graph for Action Recognition	Jan 1, 2022	Action RecognitionAttribute	—Unverified	0
ACGNet: Action Complement Graph Network for Weakly-supervised Temporal Action Localization	Dec 21, 2021	Action LocalizationTemporal Action Localization	CodeCode Available	0
Precondition and Effect Reasoning for Action Recognition	Dec 19, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	0
Analysis and Evaluation of Kinect-based Action Recognition Algorithms	Dec 16, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	0
Temporal Action Proposal Generation with Background Constraint	Dec 15, 2021	Action LocalizationTemporal Action Localization	CodeCode Available	1
Temporal Shuffling for Defending Deep Action Recognition Models against Adversarial Attacks	Dec 15, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	0
Temporal Transformer Networks with Self-Supervision for Action Recognition	Dec 14, 2021	Action RecognitionTemporal Action Localization	—Unverified	0
Multi-Expert Human Action Recognition with Hierarchical Super-Class Learning	Dec 13, 2021	Action RecognitionTemporal Action Localization	—Unverified	0
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision	Dec 9, 2021	Action LocalizationAction Recognition	CodeCode Available	0
MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection	Dec 7, 2021	Action DetectionTemporal Action Localization	CodeCode Available	1
DCAN: Improving Temporal Action Detection via Dual Context Aggregation	Dec 7, 2021	Action DetectionTemporal Action Localization	CodeCode Available	1
STSM: Spatio-Temporal Shift Module for Efficient Action Recognition	Dec 5, 2021	Action RecognitionTemporal Action Localization	—Unverified	0
Graph Convolutional Module for Temporal Action Localization in Videos	Dec 1, 2021	Action LocalizationAction Recognition	—Unverified	0
Low-Fidelity Video Encoder Optimization for Temporal Action Localization	Dec 1, 2021	Action ClassificationAction Localization	—Unverified	0
Dynamic Normalization and Relay for Video Action Recognition	Dec 1, 2021	Action RecognitionRepresentation Learning	CodeCode Available	0
Learning from Temporal Gradient for Semi-supervised Action Recognition	Nov 25, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1
Background-Click Supervision for Temporal Action Localization	Nov 24, 2021	Action LocalizationPosition	CodeCode Available	1
Evaluating Transformers for Lightweight Action Recognition	Nov 18, 2021	Action RecognitionTemporal Action Localization	—Unverified	0
M2A: Motion Aware Attention for Accurate Video Action Recognition	Nov 18, 2021	Action RecognitionTemporal Action Localization	CodeCode Available	1
Real-time 3D human action recognition based on Hyperpoint sequence	Nov 16, 2021	3D Action RecognitionAction Recognition	CodeCode Available	1
Multi-Scale Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition	Nov 7, 2021	Action RecognitionSkeleton Based Action Recognition	—Unverified	0
KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal Action Localization	Nov 5, 2021	Action LocalizationOptical Flow Estimation	CodeCode Available	0

Show:10 25 50

← PrevPage 9 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified