Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1477 papers

Title	Date	Tasks	Status
From Single-Visit to Multi-Visit Image-Based Models: Single-Visit Models are Enough to Predict Obstructive Hydronephrosis	Dec 27, 2022	Action RecognitionPrediction	CodeCode Available
Deep set conditioned latent representations for action recognition	Dec 21, 2022	Action RecognitionAtomic action recognition	—Unverified
A Survey on Human Action Recognition	Dec 20, 2022	Action RecognitionSurvey	—Unverified
Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization	Dec 19, 2022	Action LocalizationTemporal Action Localization	—Unverified
iCub! Do you recognize what I am doing?: multimodal human action recognition on multisensory-enabled iCub robot	Dec 17, 2022	Action RecognitionEnsemble Learning	—Unverified
Dilation-Erosion for Single-Frame Supervised Temporal Action Localization	Dec 13, 2022	Action LocalizationTemporal Action Localization	CodeCode Available
FLAG3D: A 3D Fitness Activity Dataset with Language Instruction	Dec 9, 2022	Action GenerationAction Recognition	CodeCode Available
Dynamic Appearance: A Video Representation for Action Recognition with Joint Training	Nov 23, 2022	Action RecognitionTemporal Action Localization	—Unverified
Slow Motion Matters: A Slow Motion Enhanced Network for Weakly Supervised Temporal Action Localization	Nov 21, 2022	Action LocalizationTemporal Action Localization	—Unverified
ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022	Nov 17, 2022	Action LocalizationMoment Queries	CodeCode Available
Language-Assisted Deep Learning for Autistic Behaviors Recognition	Nov 17, 2022	Action RecognitionDeep Learning	—Unverified
edBB-Demo: Biometrics and Behavior Analysis for Online Educational Platforms	Nov 16, 2022	Action RecognitionHeart rate estimation	CodeCode Available
A Simple Transformer-Based Model for Ego4D Natural Language Queries Challenge	Nov 16, 2022	Action LocalizationNatural Language Queries	CodeCode Available
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale	Nov 14, 2022	Action ClassificationAction Recognition	CodeCode Available
Soft-Landing Strategy for Alleviating the Task Discrepancy Problem in Temporal Action Localization Tasks	Nov 11, 2022	Action ClassificationAction Localization	CodeCode Available
Prior-enhanced Temporal Action Localization using Subject-aware Spatial Attention	Nov 10, 2022	Action LocalizationOptical Flow Estimation	—Unverified
Extending Temporal Data Augmentation for Video Action Recognition	Nov 9, 2022	Action RecognitionData Augmentation	—Unverified
Could Giant Pretrained Image Models Extract Universal Representations?	Nov 3, 2022	Action RecognitionAction Recognition In Videos	—Unverified
Deep Learning Computer Vision Algorithms for Real-time UAVs On-board Camera Image Processing	Nov 2, 2022	Action RecognitionAutonomous Navigation	—Unverified
Handwashing Action Detection System for an Autonomous Social Robot	Oct 27, 2022	Action DetectionAction Recognition	CodeCode Available
Improving Transfer Learning with a Dual Image and Video Transformer for Multi-label Movie Trailer Genre Classification	Oct 14, 2022	Action RecognitionClassification	CodeCode Available
STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition	Oct 14, 2022	Action RecognitionDecoder	—Unverified
Pose-Guided Graph Convolutional Networks for Skeleton-Based Action Recognition	Oct 10, 2022	Action RecognitionSkeleton Based Action Recognition	—Unverified
Application-Driven AI Paradigm for Human Action Recognition	Sep 30, 2022	Action ClassificationAction Recognition	—Unverified
Alignment-guided Temporal Attention for Video Action Recognition	Sep 30, 2022	Action RecognitionAttribute	—Unverified
REST: REtrieve & Self-Train for generative action recognition	Sep 29, 2022	Action RecognitionCaption Generation	—Unverified
RALACs: Action Recognition in Autonomous Vehicles using Interaction Encoding and Optical Flow	Sep 28, 2022	Action ClassificationAction Detection	CodeCode Available
View-Invariant Skeleton-based Action Recognition via Global-Local Contrastive Learning	Sep 23, 2022	Action RecognitionContrastive Learning	—Unverified
FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial Video Classification	Sep 22, 2022	Action RecognitionTemporal Action Localization	—Unverified
Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition	Sep 15, 2022	Action RecognitionActivity Recognition	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
Vision Transformers for Action Recognition: A Survey	Sep 13, 2022	Action RecognitionDimensionality Reduction	—Unverified
Shifting Perspective to See Difference: A Novel Multi-View Method for Skeleton based Action Recognition	Sep 7, 2022	Action ClassificationAction Recognition	CodeCode Available
Temporal Contrastive Learning with Curriculum	Sep 2, 2022	Action RecognitionContrastive Learning	—Unverified
Active Learning with Effective Scoring Functions for Semi-Supervised Temporal Action Localization	Aug 31, 2022	Action LocalizationActive Learning	—Unverified
Actor-identified Spatiotemporal Action Detection --- Detecting Who Is Doing What in Videos	Aug 27, 2022	Action ClassificationAction Detection	CodeCode Available
Enabling Weakly-Supervised Temporal Action Localization from On-Device Learning of the Video Stream	Aug 25, 2022	Action DetectionAction Localization	—Unverified
Adaptive Perception Transformer for Temporal Action Localization	Aug 25, 2022	Action LocalizationTemporal Action Localization	—Unverified
Progressive Cross-modal Knowledge Distillation for Human Action Recognition	Aug 17, 2022	Action RecognitionKnowledge Distillation	—Unverified
Temporal Action Localization with Multi-temporal Scales	Aug 16, 2022	Action ClassificationAction Localization	—Unverified
Two-person Graph Convolutional Network for Skeleton-based Human Interaction Recognition	Aug 12, 2022	Action ClassificationAction Recognition	CodeCode Available
Spatial-Temporal Pyramid Graph Reasoning for Action Recognition	Aug 9, 2022	Action RecognitionRepresentation Learning	—Unverified
BabyNet: A Lightweight Network for Infant Reaching Action Recognition in Unconstrained Environments to Support Future Pediatric Rehabilitation Applications	Aug 9, 2022	Action RecognitionTemporal Action Localization	—Unverified
Video-based Human Action Recognition using Deep Learning: A Review	Aug 7, 2022	Action RecognitionDeep Learning	—Unverified
Blockwise Temporal-Spatial Pathway Network	Aug 5, 2022	Action RecognitionTemporal Action Localization	—Unverified
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos	Aug 3, 2022	Action LocalizationEmotion Classification	CodeCode Available
Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action Recognition	Aug 3, 2022	Action RecognitionAttribute	—Unverified
Unsupervised Domain Adaptation for Video Transformers in Action Recognition	Jul 26, 2022	Action RecognitionDomain Adaptation	CodeCode Available
Real-Time Elderly Monitoring for Senior Safety by Lightweight Human Action Recognition	Jul 21, 2022	Action RecognitionPrivacy Preserving	—Unverified
HTNet: Anchor-free Temporal Action Localization with Hierarchical Transformers	Jul 20, 2022	Action LocalizationTemporal Action Localization	—Unverified

Show:10 25 50

← PrevPage 10 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified