Temporal Action Localization

Temporal Action Localization aims to detect activities in the video stream and output beginning and end timestamps. It is closely related to Temporal Action Proposal Generation.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1477 papers

Title	Date	Tasks	Status	Score
Graph-Based Global Reasoning Networks	Nov 30, 2018	Action ClassificationAction Recognition	CodeCode Available	5
Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization	Dec 27, 2024	Action LocalizationOptical Flow Estimation	CodeCode Available	5
Beyond the Self: Using Grounded Affordances to Interpret and Describe Others' Actions	Feb 26, 2019	Action RecognitionTemporal Action Localization	CodeCode Available	5
Improving Transfer Learning with a Dual Image and Video Transformer for Multi-label Movie Trailer Genre Classification	Oct 14, 2022	Action RecognitionClassification	CodeCode Available	5
Gate-Shift-Fuse for Video Action Recognition	Mar 16, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	5
From Single-Visit to Multi-Visit Image-Based Models: Single-Visit Models are Enough to Predict Obstructive Hydronephrosis	Dec 27, 2022	Action RecognitionPrediction	CodeCode Available	5
TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for People with Visual Impairments	Aug 2, 2023	Action RecognitionImage Captioning	CodeCode Available	5
TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals	Mar 17, 2017	Action LocalizationGPU	CodeCode Available	5
3D Pose from Motion for Cross-view Action Recognition via Non-linear Circulant Temporal Encoding	Jun 1, 2014	Action RecognitionTemporal Action Localization	CodeCode Available	5
Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision	Sep 21, 2023	Action RecognitionKnowledge Distillation	CodeCode Available	5
UAV-GESTURE: A Dataset for UAV Control and Gesture Recognition	Jan 9, 2019	Action RecognitionGesture Recognition	CodeCode Available	5
UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild	Dec 3, 2012	Action RecognitionAction Recognition In Videos	CodeCode Available	5
Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization	Jul 12, 2024	Action LocalizationContrastive Learning	CodeCode Available	5
Glimpse Clouds: Human Activity Recognition from Unstructured Feature Points	Feb 22, 2018	Action RecognitionActivity Prediction	CodeCode Available	5
HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization	Dec 26, 2017	Action ClassificationAction Localization	CodeCode Available	5
Class Feature Pyramids for Video Explanation	Sep 18, 2019	Action RecognitionTemporal Action Localization	CodeCode Available	5
End-to-end Video-level Representation Learning for Action Recognition	Nov 11, 2017	Action RecognitionOptical Flow Estimation	CodeCode Available	5
Advancing Compressed Video Action Recognition through Progressive Knowledge Distillation	Jul 2, 2024	Action RecognitionKnowledge Distillation	CodeCode Available	5
FLAG3D: A 3D Fitness Activity Dataset with Language Instruction	Dec 9, 2022	Action GenerationAction Recognition	CodeCode Available	5
Action Recognition from Single Timestamp Supervision in Untrimmed Videos	Apr 9, 2019	Action RecognitionTemporal Action Localization	CodeCode Available	5
Fisherposes for Human Action Recognition Using Kinect Sensor Data	Feb 15, 2018	3D Action RecognitionAction Recognition	CodeCode Available	5
Ensemble Deep Learning for Skeleton-Based Action Recognition Using Temporal Sliding LSTM Networks	Oct 1, 2017	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	5
Boosting Positive Segments for Weakly-Supervised Audio-Visual Video Parsing	Jan 1, 2023	Action LocalizationMultiple Instance Learning	CodeCode Available	5
Unsupervised Representation Learning by Sorting Sequences	Aug 3, 2017	Action Recognitionimage-classification	CodeCode Available	5
FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement	Aug 25, 2024	Action LocalizationFew Shot Temporal Action Localization	CodeCode Available	5
Chained Multi-stream Networks Exploiting Pose, Motion, and Appearance for Action Classification and Detection	Apr 3, 2017	Action ClassificationAction Localization	CodeCode Available	5
First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations	Apr 8, 2017	3D Hand Pose EstimationAction Recognition	CodeCode Available	5
CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos	Mar 4, 2017	Action LocalizationGPU	CodeCode Available	5
Action Recognition for Depth Video using Multi-view Dynamic Images	Jun 29, 2018	Action RecognitionOptical Flow Estimation	CodeCode Available	5
Features Understanding in 3D CNNs for Actions Recognition in Video	Oct 1, 2020	Action RecognitionDecision Making	CodeCode Available	5
Expressive Keypoints for Skeleton-based Action Recognition via Skeleton Transformation	Jun 26, 2024	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	5
REPAIR: Removing Representation Bias by Dataset Resampling	Apr 16, 2019	Action RecognitionTemporal Action Localization	CodeCode Available	5
Faster Learning of Temporal Action Proposal via Sparse Multilevel Boundary Generator	Mar 6, 2023	Action LocalizationTemporal Action Localization	CodeCode Available	5
FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition on The Edge	Nov 4, 2023	Action RecognitionTemporal Action Localization	CodeCode Available	5
Human Action Recognition by Representing 3D Skeletons as Points in a Lie Group	Jun 23, 2014	Action RecognitionDynamic Time Warping	CodeCode Available	5
Ridiculously Fast Shot Boundary Detection with Fully Convolutional Neural Networks	May 23, 2017	Action RecognitionBoundary Detection	CodeCode Available	5
Excitation Backprop for RNNs	Nov 18, 2017	Action RecognitionTemporal Action Localization	CodeCode Available	5
AENet: Learning Deep Audio Features for Video Analysis	Jan 3, 2017	Action RecognitionData Augmentation	CodeCode Available	5
Can Humans Fly? Action Understanding With Multiple Classes of Actors	Jun 1, 2015	Action RecognitionAction Understanding	—Unverified	0
CAMREP- Concordia Action and Motion Repository	Oct 6, 2017	Action RecognitionTemporal Action Localization	—Unverified	0
A Hierarchical Pose-Based Approach to Complex Action Understanding Using Dictionaries of Actionlets and Motion Poselets	Jun 15, 2016	Action RecognitionAction Understanding	—Unverified	0
CAG-QIL: Context-Aware Actionness Grouping via Q Imitation Learning for Online Temporal Action Localization	Jan 1, 2021	Action LocalizationImitation Learning	—Unverified	0
A Grid-based Representation for Human Action Recognition	Oct 17, 2020	Action RecognitionTemporal Action Localization	—Unverified	0
Action recognition by learning pose representations	Aug 2, 2017	Action ClassificationAction Recognition	—Unverified	0
Bullying10K: A Large-Scale Neuromorphic Dataset towards Privacy-Preserving Bullying Recognition	Jun 20, 2023	Action LocalizationAction Recognition	—Unverified	0
Exploring Frame Segmentation Networks for Temporal Action Localization	Feb 14, 2019	Action LocalizationOpen-Ended Question Answering	—Unverified	0
Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach	May 8, 2023	Action RecognitionKnowledge Graph Completion	—Unverified	0
A Generative Restricted Boltzmann Machine Based Method for High-Dimensional Motion Data Modeling	Oct 21, 2017	Action RecognitionFacial Expression Recognition	—Unverified	0
Exploring Feature Representation and Training strategies in Temporal Action Localization	May 25, 2019	Action LocalizationTemporal Action Localization	—Unverified	0
Exploring Explainability in Video Action Recognition	Apr 13, 2024	Action RecognitionClassification	—Unverified	0

Show:10 25 50

← PrevPage 10 of 30Next →

All datasets THUMOS14 ActivityNet-1.3 HACS FineAction MultiTHUMOS CrossTask EPIC-KITCHENS-100 MUSES ActivityNet-1.2 Ego4D MQ test Ego4D MQ val MEXaction2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (VideoMAEv2-giant)	Avg mAP (0.3:0.7)	76.9	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	Avg mAP (0.3:0.7)	74.2	—	Unverified
3	ActionMamba(InternVideo2-6B)	Avg mAP (0.3:0.7)	72.72	—	Unverified
4	GCM	mAP IOU@0.1	72.5	—	Unverified
5	AGT (Ours)	mAP IOU@0.1	72.1	—	Unverified
6	InternVideo2-6B	Avg mAP (0.3:0.7)	72	—	Unverified
7	ActionFormer (InternVideo features)	Avg mAP (0.3:0.7)	71.58	—	Unverified
8	TriDet (VideoMAE v2-g feature)	Avg mAP (0.3:0.7)	70.1	—	Unverified
9	InternVideo2-1B	Avg mAP (0.3:0.7)	69.8	—	Unverified
10	ActionFormer (VideoMAE V2-g features)	Avg mAP (0.3:0.7)	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	mAP IOU@0.5	59.3	—	Unverified
2	RDFA-S6 (InternVideo2-6B)	mAP	42.9	—	Unverified
3	ActionMamba (InternVideo2-6B)	mAP	42.02	—	Unverified
4	PRN+BMN (ensemble)	mAP	42	—	Unverified
5	AdaTAD (VideoMAEv2-giant)	mAP	41.93	—	Unverified
6	InternVideo2-6B	mAP	41.2	—	Unverified
7	InternVideo2-1B	mAP	40.4	—	Unverified
8	UniMD+Sync.	mAP	39.83	—	Unverified
9	PRN (CSN)	mAP	39.4	—	Unverified
10	InternVideo	mAP	39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	Average-mAP	45.8	—	Unverified
2	ActionMamba(InternVideo2-6B)	Average-mAP	44.56	—	Unverified
3	DyFADet(VideoMAEv2)	Average-mAP	44.3	—	Unverified
4	InternVideo2-6B	Average-mAP	43.3	—	Unverified
5	TriDet (VideoMAEv2)	Average-mAP	43.1	—	Unverified
6	InternVideo2-1B	Average-mAP	42.4	—	Unverified
7	InternVideo	Average-mAP	41.55	—	Unverified
8	TriDet (SlowFast)	Average-mAP	38.6	—	Unverified
9	TriDet (I3D RGB)	Average-mAP	36.8	—	Unverified
10	TadTr (I3D RGB)	Average-mAP	32.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RDFA-S6 (InternVideo2-6B)	mAP	29.6	—	Unverified
2	ActionMamba(InternVideo2-6B)	mAP	29.04	—	Unverified
3	InternVideo2-6B	mAP	27.7	—	Unverified
4	DyFADet (VideoMAE v2-g)	mAP	23.8	—	Unverified
5	VideoMAE V2-g	mAP	18.24	—	Unverified
6	InternVideo	mAP	17.57	—	Unverified
7	BMN (i3d feaure)	mAP	9.25	—	Unverified
8	G-TAD (i3d feature)	mAP	9.06	—	Unverified
9	DBG (i3d feature)	mAP	6.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TriDet (VideoMAEv2)	Average mAP	37.5	—	Unverified
2	DualDETR (I3D-rgb)	Average mAP	32.64	—	Unverified
3	TriDet (I3D-rgb)	Average mAP	30.7	—	Unverified
4	TemporalMaxer	Average mAP	29.9	—	Unverified
5	PointTAD	Average mAP	23.5	—	Unverified
6	PDAN	Average mAP	17.3	—	Unverified
7	MS-TCT	Average mAP	16.2	—	Unverified
8	MLAD	Average mAP	14.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCLIP	Recall	47.3	—	Unverified
2	VLM	Recall	46.5	—	Unverified
3	TACo	Recall	42.5	—	Unverified
4	Text-Video Embedding	Recall	33.6	—	Unverified
5	Fully-supervised upper-bound	Recall	31.6	—	Unverified
6	Zhukov	Recall	22.4	—	Unverified
7	Alayrac	Recall	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AdaTAD (verb, VideoMAE-L)	Avg mAP (0.1-0.5)	29.3	—	Unverified
2	TriDet (verb)	Avg mAP (0.1-0.5)	25.4	—	Unverified
3	TemporalMaxer (verb)	Avg mAP (0.1-0.5)	24.5	—	Unverified
4	ActionFormer (verb)	Avg mAP (0.1-0.5)	23.5	—	Unverified
5	G-TAD (verb)	Avg mAP (0.1-0.5)	9.4	—	Unverified
6	BMN (verb)	Avg mAP (0.1-0.5)	8.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TemporalMaxer	mAP	27.2	—	Unverified
2	MUSES	mAP	18.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepMetricLearner	mAP IOU@0.5	35.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ActionFormer (SlowFast+Omnivore+EgoVLP)	Average mAP	21.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S-CNN	mAP	7.4	—	Unverified