Action Detection

Action Detection aims to find both where and when an action occurs within a video clip and classify what the action is taking place. Typically results are given in the form of action tublets, which are action bounding boxes linked across time in the video. This is related to temporal localization, which seeks to identify the start and end frame of an action, and action recognition, which seeks only to classify which action is taking place and typically assumes a trimmed video.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 817 papers

Title	Date	Tasks	Status	Hype
Multi-Input Multi-Output Target-Speaker Voice Activity Detection For Unified, Flexible, and Robust Audio-Visual Speaker Diarization	Jan 16, 2024	Action DetectionActivity Detection	—Unverified	0
Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments	Jan 7, 2024	Action DetectionActivity Detection	—Unverified	0
Glance and Focus: Memory Prompting for Multi-Event Video Question Answering	Jan 3, 2024	Action DetectionHuman-Object Interaction Detection	CodeCode Available	1
Low-power Continuous Remote Behavioral Localization with Event Cameras	Jan 1, 2024	Action Detection	—Unverified	0
Self-supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions	Dec 27, 2023	Action DetectionActivity Detection	—Unverified	0
SADA: Semantic adversarial unsupervised domain adaptation for Temporal Action Localization	Dec 20, 2023	Action DetectionAction Localization	CodeCode Available	0
Generative Model-based Feature Knowledge Distillation for Action Recognition	Dec 14, 2023	Action DetectionAction Recognition	CodeCode Available	1
Advanced Image Segmentation Techniques for Neural Activity Detection via C-fos Immediate Early Gene Expression	Dec 13, 2023	Action DetectionActivity Detection	—Unverified	0
Semi-supervised Active Learning for Video Action Detection	Dec 12, 2023	Action DetectionActive Learning	CodeCode Available	0
Spatiotemporal Event Graphs for Dynamic Scene Understanding	Dec 11, 2023	Action DetectionActivity Detection	—Unverified	0
Low-power, Continuous Remote Behavioral Localization with Event Cameras	Dec 6, 2023	Action Detection	—Unverified	0
Towards More Practical Group Activity Detection: A New Benchmark and Model	Dec 5, 2023	Action DetectionActivity Detection	—Unverified	0
Adapting Short-Term Transformers for Action Detection in Untrimmed Videos	Dec 4, 2023	Action DetectionVideo Recognition	CodeCode Available	1
SPIRE-SIES: A Spontaneous Indian English Speech Corpus	Dec 1, 2023	Action DetectionActivity Detection	—Unverified	0
End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames	Nov 28, 2023	Action DetectionTemporal Action Localization	CodeCode Available	2
Centre Stage: Centricity-based Audio-Visual Temporal Action Detection	Nov 28, 2023	Action Detection	CodeCode Available	0
ADM-Loc: Actionness Distribution Modeling for Point-supervised Temporal Action Localization	Nov 27, 2023	Action ClassificationAction Detection	—Unverified	0
Introducing SSBD+ Dataset with a Convolutional Pipeline for detecting Self-Stimulatory Behaviours in Children using raw videos	Nov 25, 2023	Action Detection	—Unverified	0
Combatting Human Trafficking in the Cyberspace: A Natural Language Processing-Based Methodology to Analyze the Language in Online Advertisements	Nov 22, 2023	Action DetectionActivity Detection	—Unverified	0
ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot End-to-End Temporal Action Detection	Nov 1, 2023	Action DetectionClassification	—Unverified	0
A Hybrid Graph Network for Complex Activity Detection in Video	Oct 26, 2023	Action DetectionActivity Detection	—Unverified	0
ChimpACT: A Longitudinal Dataset for Understanding Chimpanzee Behaviors	Oct 25, 2023	Action DetectionPose Estimation	CodeCode Available	1
Prompt-driven Target Speech Diarization	Oct 23, 2023	Action DetectionActivity Detection	—Unverified	0
Device Detection and Channel Estimation in MTC with Correlated Activity Pattern	Oct 23, 2023	Action DetectionActivity Detection	—Unverified	0
POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization	Oct 20, 2023	Action DetectionAction Localization	—Unverified	0
Enhancing Illicit Activity Detection using XAI: A Multimodal Graph-LLM Framework	Oct 20, 2023	Action DetectionActivity Detection	—Unverified	0
Property-Aware Multi-Speaker Data Simulation: A Probabilistic Modelling Technique for Synthetic Data Generation	Oct 18, 2023	Action DetectionActivity Detection	—Unverified	0
Hierarchical MTC User Activity Detection and Channel Estimation with Unknown Spatial Covariance	Oct 16, 2023	Action DetectionActivity Detection	—Unverified	0
End-to-end Online Speaker Diarization with Target Speaker Tracking	Oct 12, 2023	Action DetectionActivity Detection	—Unverified	0
VSANet: Real-time Speech Enhancement Based on Voice Activity Detection and Causal Spatial Attention	Oct 11, 2023	Action DetectionActivity Detection	—Unverified	0
Boundary Discretization and Reliable Classification Network for Temporal Action Detection	Oct 10, 2023	Action Detection	CodeCode Available	0
ACT-Net: Anchor-context Action Detection in Surgery Videos	Oct 5, 2023	Action DetectionDenoising	—Unverified	0
A Grammatical Compositional Model for Video Action Detection	Oct 4, 2023	Action DetectionHuman Dynamics	—Unverified	0
PP-MeT: a Real-world Personalized Prompt based Meeting Transcription System	Sep 28, 2023	Action DetectionActivity Detection	—Unverified	0
M^33D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding	Sep 26, 2023	2D Semantic SegmentationAction Detection	—Unverified	0
ENIGMA-51: Towards a Fine-Grained Understanding of Human-Object Interactions in Industrial Scenarios	Sep 26, 2023	Action DetectionHuman-Object Interaction Detection	CodeCode Available	0
The Impact of Silence on Speech Anti-Spoofing	Sep 21, 2023	Action DetectionActivity Detection	—Unverified	0
SkeleTR: Towrads Skeleton-based Action Recognition in the Wild	Sep 20, 2023	Action ClassificationAction Detection	—Unverified	0
JOADAA: joint online action detection and action anticipation	Sep 12, 2023	Action AnticipationAction Detection	—Unverified	0
Effective Abnormal Activity Detection on Multivariate Time Series Healthcare Data	Sep 11, 2023	Action DetectionActivity Detection	—Unverified	0
Temporal Action Localization with Enhanced Instant Discriminability	Sep 11, 2023	Action DetectionAction Localization	CodeCode Available	2
In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction Microphones for In-Ear Sensing Platforms	Sep 5, 2023	Action DetectionActivity Detection	—Unverified	0
COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action Spotting using Transformers	Sep 3, 2023	Action DetectionAction Spotting	CodeCode Available	1
Self-Feedback DETR for Temporal Action Detection	Aug 21, 2023	Action DetectionDecoder	—Unverified	0
Progression-Guided Temporal Action Detection in Videos	Aug 18, 2023	Action ClassificationAction Detection	CodeCode Available	0
The DKU-MSXF Diarization System for the VoxCeleb Speaker Recognition Challenge 2023	Aug 15, 2023	Action DetectionActivity Detection	—Unverified	0
Memory-and-Anticipation Transformer for Online Action Understanding	Aug 15, 2023	Action DetectionAction Understanding	CodeCode Available	1
Integrating Emotion Recognition with Speech Recognition and Speaker Diarisation for Conversations	Aug 14, 2023	Action DetectionActivity Detection	CodeCode Available	0
PAT: Position-Aware Transformer for Dense Multi-Label Action Detection	Aug 9, 2023	Action DetectionEvent Detection	—Unverified	0
A Survey on Deep Learning-based Spatio-temporal Action Detection	Aug 3, 2023	Action DetectionAutonomous Driving	—Unverified	0

Show:10 25 50

← PrevPage 4 of 17Next →

All datasets UCF101-24 J-HMDB Charades Multi-THUMOS UCF Sports THUMOS' 14 MultiSports TSU TTStroke-21 ME21 TTStroke-21 ME22 MultiTHUMOS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	STAR/L	Frame-mAP 0.5	90.3	—	Unverified
2	SiA	Frame-mAP 0.5	88.5	—	Unverified
3	YOWO + LFB	Frame-mAP 0.5	87.3	—	Unverified
4	HIT	Frame-mAP 0.5	84.8	—	Unverified
5	HISAN (ResNet-101 + FPN)	Video-mAP 0.2	82.3	—	Unverified
6	YOWO	Frame-mAP 0.5	80.4	—	Unverified
7	Two-in-one Two Stream	Video-mAP 0.2	78.48	—	Unverified
8	MOC	Frame-mAP 0.5	77.8	—	Unverified
9	Faster-RCNN + two-stream I3D conv	Frame-mAP 0.5	76.3	—	Unverified
10	Two-in-one	Video-mAP 0.2	75.48	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SiA	Frame-mAP 0.5	88.5	—	Unverified
2	HISAN (ResNet-101 + FPN)	Video-mAP 0.2	87.59	—	Unverified
3	HIT	Frame-mAP 0.5	83.8	—	Unverified
4	HISAN (VGG-16)	Frame-mAP 0.5	76.72	—	Unverified
5	DTS	Video-mAP 0.2	76.1	—	Unverified
6	YOWO + LFB	Frame-mAP 0.5	75.7	—	Unverified
7	Two-in-one Two Stream	Video-mAP 0.5	74.74	—	Unverified
8	YOWO	Frame-mAP 0.5	74.4	—	Unverified
9	MOC	Frame-mAP 0.5	74	—	Unverified
10	Faster-RCNN + two-stream I3D conv	Frame-mAP 0.5	73.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TTM	mAP	28.79	—	Unverified
2	CTRN	mAP	27.8	—	Unverified
3	Coarse-Fine Networks (w/ self-supervised detection pretraining)	mAP	26.95	—	Unverified
4	UniMD+Sync. (RGB+Flow)	mAP	26.53	—	Unverified
5	PDAN (RGB+Flow)	mAP	26.5	—	Unverified
6	PAT	mAP	26.5	—	Unverified
7	MS-TCT (RGB only)	mAP	25.4	—	Unverified
8	3D ResNet-50 + super-events pretrained on AViD	mAP	25.2	—	Unverified
9	Coarse-Fine Networks	mAP	25.1	—	Unverified
10	MLAD (RGB + Flow)	mAP	23.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MLAD	mAP	51.5	—	Unverified
2	CTRN	mAP	51.2	—	Unverified
3	PDAN	mAP	47.6	—	Unverified
4	TGM	mAP	46.4	—	Unverified
5	MS-TCT (RGB only)	mAP	43.1	—	Unverified
6	I3D + our super-event	mAP	36.4	—	Unverified
7	Two-stream + LSTM	mAP	28.1	—	Unverified
8	Two-stream	mAP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Two-in-one Two Stream	Video-mAP 0.5	96.52	—	Unverified
2	DTS	Video-mAP 0.2	94.3	—	Unverified
3	Two-in-one	Video-mAP 0.5	92.74	—	Unverified
4	T-CNN	Frame-mAP 0.5	86.7	—	Unverified
5	MR-TS R-CNN	Frame-mAP 0.5	84.52	—	Unverified
6	TS R-CNN	Frame-mAP 0.5	82.3	—	Unverified
7	Action Tubes	Frame-mAP 0.5	68.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAT (Ours) Trans	mAP	71.6	—	Unverified
2	TadML-two stream	mAP	59.7	—	Unverified
3	MAT (ours)	mAP	58.2	—	Unverified
4	TadML-rgb	mAP	53.46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HIT	Frame-mAP 0.5	33.3	—	Unverified
2	SiA	Frame-mAP 0.5	28.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MS-TCT	Frame-mAP	33.7	—	Unverified
2	PDAN	Frame-mAP	32.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STCNN	IoU	0.14	—	Unverified
2	Two Stream Network	IoU	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STCNN-V2 (Vote decision)	IoU	0.52	—	Unverified
2	RGB and PRGB	IoU	0.35	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PAT	mAP	44.6	—	Unverified