Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1477 papers

Title	Date	Tasks	Status	Hype
Video BagNet: short temporal receptive fields increase robustness in long-term action recognition	Aug 22, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0
Temporal-Distributed Backdoor Attack Against Video Based Action Recognition	Aug 21, 2023	Action RecognitionBackdoor Attack	—Unverified	0
UnLoc: A Unified Framework for Video Localization Tasks	Aug 21, 2023	Action SegmentationMoment Retrieval	CodeCode Available	0
Action Class Relation Detection and Classification Across Multiple Video Datasets	Aug 15, 2023	Action RecognitionAction Recognition In Videos	—Unverified	0
Masked Motion Predictors are Strong 3D Action Representation Learners	Aug 14, 2023	3D Action RecognitionAction Recognition	CodeCode Available	1
Hard No-Box Adversarial Attack on Skeleton-Based Human Action Recognition with Skeleton-Motion-Informed Gradient	Aug 10, 2023	Action RecognitionActivity Recognition	CodeCode Available	1
JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset Student-Teacher Scenario for Video Action Recognition	Aug 9, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition	Aug 7, 2023	Action RecognitionLanguage Modeling	CodeCode Available	0
SkateboardAI: The Coolest Video Action Recognition for Skateboarding	Aug 2, 2023	3D ArchitectureAction Recognition	CodeCode Available	0
TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for People with Visual Impairments	Aug 2, 2023	Action RecognitionImage Captioning	CodeCode Available	0
MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using Transformers	Aug 1, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
DDG-Net: Discriminability-Driven Graph Network for Weakly-supervised Temporal Action Localization	Jul 31, 2023	Action LocalizationTemporal Action Localization	CodeCode Available	1
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration	Jul 27, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0
Spatiotemporal Modeling Encounters 3D Medical Image Analysis: Slice-Shift UNet with Multi-View Fusion	Jul 24, 2023	Action RecognitionMedical Image Analysis	—Unverified	0
Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition	Jul 22, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Human Action Recognition in Still Images Using ConViT	Jul 18, 2023	Action RecognitionAction Recognition In Still Images	—Unverified	0
Fusing Hand and Body Skeletons for Human Action Recognition in Assembly	Jul 18, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation	Jul 17, 2023	Action RecognitionDomain Adaptation	—Unverified	0
Cross-Model Cross-Stream Learning for Self-Supervised Human Action Recognition	Jul 15, 2023	Action RecognitionContrastive Learning	CodeCode Available	0
Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition	Jul 13, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	1
Free-Form Composition Networks for Egocentric Action Recognition	Jul 13, 2023	Action RecognitionForm	—Unverified	0
NMS Threshold matters for Ego4D Moment Queries -- 2nd place solution to the Ego4D Moment Queries Challenge 2023	Jul 5, 2023	Action LocalizationMoment Queries	CodeCode Available	2
SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network	Jun 30, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0
Theater Aid System for the Visually Impaired Through Transfer Learning of Spatio-Temporal Graph Convolution Networks	Jun 28, 2023	Action RecognitionDiversity	—Unverified	0
Actionness Inconsistency-guided Contrastive Learning for Weakly-supervised Temporal Action Localization	Jun 26, 2023	Action LocalizationContrastive Learning	CodeCode Available	1
Bullying10K: A Large-Scale Neuromorphic Dataset towards Privacy-Preserving Bullying Recognition	Jun 20, 2023	Action LocalizationAction Recognition	—Unverified	0
Seeing the Pose in the Pixels: Learning Pose-Aware Representations in Vision Transformers	Jun 15, 2023	Action ClassificationAction Recognition	CodeCode Available	1
A Survey on Video Moment Localization	Jun 13, 2023	Action LocalizationMoment Retrieval	—Unverified	0
How Object Information Improves Skeleton-based Human Action Recognition in Assembly Tasks	Jun 9, 2023	Action ClassificationAction Recognition	—Unverified	0
Human Action Recognition in Egocentric Perspective Using 2D Object and Hands Pose	Jun 8, 2023	Action ClassificationAction Recognition	—Unverified	0
Long-Range Feedback Spiking Network Captures Dynamic and Static Representations of the Visual Cortex under Movie Stimuli	Jun 2, 2023	Action RecognitionImage Classification	CodeCode Available	0
fpgaHART: A toolflow for throughput-oriented acceleration of 3D CNNs for HAR onto FPGAs	May 31, 2023	Action RecognitionAutonomous Vehicles	—Unverified	0
High-Performance Inference Graph Convolutional Networks for Skeleton-Based Action Recognition	May 30, 2023	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	0
FMM-X3D: FPGA-based modeling and mapping of X3D for Human Action Recognition	May 29, 2023	Action RecognitionAutonomous Vehicles	—Unverified	0
Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization	May 29, 2023	Action LocalizationMultiple Instance Learning	CodeCode Available	1
Deep Neural Networks in Video Human Action Recognition: A Review	May 25, 2023	Action RecognitionOptical Flow Estimation	—Unverified	0
Action Sensitivity Learning for Temporal Action Localization	May 25, 2023	Action LocalizationMoment Queries	—Unverified	0
High Speed Human Action Recognition using a Photonic Reservoir Computer	May 24, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Perception Test: A Diagnostic Benchmark for Multimodal Video Models	May 23, 2023	DiagnosticGrounded Video Question Answering	CodeCode Available	2
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition	May 22, 2023	Action RecognitionDecoder	—Unverified	0
SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition	May 21, 2023	Action RecognitionOptical Flow Estimation	—Unverified	0
Riemannian Multinomial Logistics Regression for SPD Neural Networks	May 18, 2023	Action RecognitionEEG	CodeCode Available	1
Motion-Scenario Decoupling for Rat-Aware Video Position Prediction: Strategy and Benchmark	May 17, 2023	Action Recognitionmotion prediction	—Unverified	0
Few-shot Action Recognition via Intra- and Inter-Video Information Maximization	May 10, 2023	Action RecognitionFew-Shot action recognition	—Unverified	0
Learning Video-Conditioned Policies for Unseen Manipulation Tasks	May 10, 2023	Action RecognitionRobot Manipulation	—Unverified	0
Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach	May 8, 2023	Action RecognitionKnowledge Graph Completion	—Unverified	0
Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization	May 7, 2023	Action LocalizationTemporal Action Localization	—Unverified	0
Boosting Weakly-Supervised Temporal Action Localization with Text Information	May 1, 2023	Action LocalizationSentence	CodeCode Available	1
Weakly-Supervised Temporal Action Localization with Bidirectional Semantic Consistency Constraint	Apr 25, 2023	Action LocalizationTemporal Action Localization	CodeCode Available	0
RHM: Robot House Multi-view Human Activity Recognition Dataset	Apr 24, 2023	Action RecognitionActivity Recognition	CodeCode Available	0

Show:10 25 50

← PrevPage 5 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified