Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1477 papers

Title	Date	Tasks	Status	Hype
SADA: Semantic adversarial unsupervised domain adaptation for Temporal Action Localization	Dec 20, 2023	Action DetectionAction Localization	CodeCode Available	0
Online Action Recognition for Human Risk Prediction with Anticipated Haptic Alert via Wearables	Dec 14, 2023	Action RecognitionMixture-of-Experts	CodeCode Available	0
Generative Model-based Feature Knowledge Distillation for Action Recognition	Dec 14, 2023	Action DetectionAction Recognition	CodeCode Available	1
EZ-CLIP: Efficient Zeroshot Video Action Recognition	Dec 13, 2023	Action RecognitionGPU	CodeCode Available	1
Towards a geometric understanding of Spatio Temporal Graph Convolution Networks	Dec 12, 2023	Action RecognitionActivity Recognition	CodeCode Available	0
Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization	Dec 12, 2023	Action LocalizationClustering	CodeCode Available	0
From Detection to Action Recognition: An Edge-Based Pipeline for Robot Human Perception	Dec 6, 2023	Action RecognitionHuman Detection	—Unverified	0
Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training	Dec 5, 2023	Action RecognitionDomain Adaptation	CodeCode Available	0
Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition	Dec 4, 2023	Action RecognitionDescriptive	—Unverified	0
DEVIAS: Learning Disentangled Video Representations of Action and Scene	Nov 30, 2023	Action RecognitionDecoder	CodeCode Available	1
F4D: Factorized 4D Convolutional Neural Network for Efficient Video-level Representation Learning	Nov 28, 2023	Action RecognitionRepresentation Learning	—Unverified	0
Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition	Nov 28, 2023	Action ClassificationAction Recognition	—Unverified	0
End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames	Nov 28, 2023	Action DetectionTemporal Action Localization	CodeCode Available	2
Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection	Nov 28, 2023	Contrastive LearningHighlight Detection	CodeCode Available	1
ADM-Loc: Actionness Distribution Modeling for Point-supervised Temporal Action Localization	Nov 27, 2023	Action ClassificationAction Detection	—Unverified	0
Temporal Action Localization for Inertial-based Human Activity Recognition	Nov 27, 2023	Action LocalizationActivity Recognition	CodeCode Available	1
Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition	Nov 27, 2023	Action RecognitionRepresentation Learning	—Unverified	0
Challenges in Video-Based Infant Action Recognition: A Critical Examination of the State of the Art	Nov 21, 2023	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
Learning Human Action Recognition Representations Without Real Humans	Nov 10, 2023	Action RecognitionEthics	CodeCode Available	0
FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition on The Edge	Nov 4, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0
Distilling Knowledge from CNN-Transformer Models for Enhanced Human Action Recognition	Nov 2, 2023	Action RecognitionKnowledge Distillation	—Unverified	0
Distribution of Action Movements (DAM): A Descriptor for Human Action Recognition	Oct 26, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Videoprompter: an ensemble of foundational models for zero-shot video understanding	Oct 23, 2023	Action RecognitionDescriptive	—Unverified	0
POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization	Oct 20, 2023	Action DetectionAction Localization	—Unverified	0
Deep Learning Techniques for Video Instance Segmentation: A Survey	Oct 19, 2023	Action RecognitionDeep Learning	—Unverified	0
Proposal-based Temporal Action Localization with Point-level Supervision	Oct 9, 2023	Action ClassificationAction Localization	—Unverified	0
Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks	Oct 7, 2023	Action RecognitionMultiple-choice	CodeCode Available	0
Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization	Oct 5, 2023	Action LocalizationTemporal Action Localization	—Unverified	0
M^33D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding	Sep 26, 2023	2D Semantic SegmentationAction Detection	—Unverified	0
Boundary-Aware Proposal Generation Method for Temporal Action Localization	Sep 25, 2023	Action LocalizationAction Recognition	—Unverified	0
Exploring Self-supervised Skeleton-based Action Recognition in Occluded Environments	Sep 21, 2023	Action RecognitionImputation	CodeCode Available	1
Survey of Action Recognition, Spotting and Spatio-Temporal Localization in Soccer -- Current Trends and Research Perspectives	Sep 21, 2023	Action LocalizationAction Recognition	—Unverified	0
Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision	Sep 21, 2023	Action RecognitionKnowledge Distillation	CodeCode Available	0
Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for Long-form Video Understanding	Sep 20, 2023	Action LocalizationForm	—Unverified	0
Selective Volume Mixup for Video Action Recognition	Sep 18, 2023	Action RecognitionImage Augmentation	CodeCode Available	0
Sub-action Prototype Learning for Point-level Weakly-supervised Temporal Action Localization	Sep 16, 2023	Action LocalizationPseudo Label	—Unverified	0
hear-your-action: human action recognition by ultrasound active sensing	Sep 15, 2023	Action RecognitionPrivacy Preserving	—Unverified	0
TransNet: A Transfer Learning-Based Network for Human Action Recognition	Sep 13, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Temporal Action Localization with Enhanced Instant Discriminability	Sep 11, 2023	Action DetectionAction Localization	CodeCode Available	2
Unified Contrastive Fusion Transformer for Multimodal Human Action Recognition	Sep 10, 2023	Action RecognitionContrastive Learning	—Unverified	0
CDFSL-V: Cross-Domain Few-Shot Learning for Videos	Sep 7, 2023	Action RecognitionCross-Domain Few-Shot	CodeCode Available	1
EgoPCA: A New Framework for Egocentric Hand-Object Interaction Understanding	Sep 5, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
B2C-AFM: Bi-Directional Co-Temporal and Cross-Spatial Attention Fusion Model for Human Action Recognition	Aug 30, 2023	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
IndGIC: Supervised Action Recognition under Low Illumination	Aug 29, 2023	Action RecognitionImage Enhancement	—Unverified	0
Improving Video Violence Recognition with Human Interaction Learning on 3D Skeleton Point Clouds	Aug 26, 2023	Action RecognitionTemporal Action Localization	—Unverified	0
Benchmarking Data Efficiency and Computational Efficiency of Temporal Action Localization Models	Aug 24, 2023	Action LocalizationBenchmarking	—Unverified	0
HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation	Aug 24, 2023	Action LocalizationTemporal Action Localization	CodeCode Available	1
Cross-Video Contextual Knowledge Exploration and Exploitation for Ambiguity Reduction in Weakly Supervised Temporal Action Localization	Aug 24, 2023	Action LocalizationContrastive Learning	—Unverified	0
POCO: 3D Pose and Shape Estimation with Confidence	Aug 24, 2023	Action RecognitionPose Estimation	CodeCode Available	1
DD-GCN: Directed Diffusion Graph Convolutional Network for Skeleton-based Human Action Recognition	Aug 24, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	0

Show:10 25 50

← PrevPage 4 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified