Action Segmentation

Action Segmentation is a challenging problem in high-level video understanding. In its simplest form, Action Segmentation aims to segment a temporally untrimmed video by time and label each segmented part with one of pre-defined action labels. The results of Action Segmentation can be further used as input to various applications, such as video-to-text and action localization.

Source: TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 219 papers

Title	Date	Tasks	Status	Hype
Unified Fully and Timestamp Supervised Temporal Action Segmentation via Sequence to Sequence Translation	Sep 1, 2022	Action SegmentationDecoder	CodeCode Available	1
LOGO: A Long-Form Video Dataset for Group Action Quality Assessment	Apr 7, 2024	Action Quality AssessmentAction Segmentation	CodeCode Available	1
Automated freezing of gait assessment with marker-based motion capture and multi-stage spatial-temporal graph convolutional neural networks	Mar 29, 2021	Action SegmentationSegmentation	CodeCode Available	1
Diffusion Action Segmentation	Mar 31, 2023	Action SegmentationDenoising	CodeCode Available	1
Pretrained Language Models as Visual Planners for Human Assistance	Apr 17, 2023	Action SegmentationLanguage Modelling	CodeCode Available	1
3D Pose-Based Temporal Action Segmentation for Figure Skating: A Fine-Grained and Jump Procedure-Aware Annotation Approach	Aug 29, 2024	Action SegmentationMarkerless Motion Capture	CodeCode Available	1
M2R2: MulitModal Robotic Representation for Temporal Action Segmentation	Apr 25, 2025	Action SegmentationTemporal Action Segmentation	—Unverified	0
Action Understanding with Multiple Classes of Actors	Apr 27, 2017	Action RecognitionAction Segmentation	—Unverified	0
An Efficient Framework for Few-shot Skeleton-based Temporal Action Segmentation	Jul 20, 2022	Action SegmentationData Augmentation	—Unverified	0
ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation	Dec 5, 2024	Action AnticipationAction Segmentation	—Unverified	0
DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action Segmentation	Jul 31, 2023	Action SegmentationHuman-Object Interaction Detection	—Unverified	0
An End-to-end 3D Convolutional Neural Network for Action Detection and Segmentation in Videos	Nov 30, 2017	Action DetectionAction Segmentation	—Unverified	0
Distill and Collect for Semi-Supervised Temporal Action Segmentation	Nov 2, 2022	Action SegmentationSegmentation	—Unverified	0
An Efficient 3D CNN for Action/Object Segmentation in Video	Jul 21, 2019	Action SegmentationDecoder	—Unverified	0
DIR-AS: Decoupling Individual Identification and Temporal Reasoning for Action Segmentation	Apr 4, 2023	Action RecognitionAction Segmentation	—Unverified	0
Dilated Temporal Fully-Convolutional Network for Semantic Segmentation of Motion Capture Data	Jun 24, 2018	Action SegmentationMotion Synthesis	—Unverified	0
Anchor-Constrained Viterbi for Set-Supervised Action Segmentation	Apr 5, 2021	Action SegmentationSegmentation	—Unverified	0
Action Shuffle Alternating Learning for Unsupervised Action Segmentation	Apr 5, 2021	Action SegmentationSegmentation	—Unverified	0
MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models	May 23, 2024	Action RecognitionAction Segmentation	—Unverified	0
Depthwise Separable Temporal Convolutional Network for Action Segmentation	Jan 19, 2021	Action SegmentationDecoder	—Unverified	0
2by2: Weakly-Supervised Learning for Global Action Segmentation	Dec 17, 2024	Action SegmentationWeakly-supervised Learning	—Unverified	0
Depth Over RGB: Automatic Evaluation of Open Surgery Skills Using Depth Camera	Jan 18, 2024	Action SegmentationData Compression	—Unverified	0
Long Short View Feature Decomposition via Contrastive Video Representation Learning	Sep 23, 2021	Action RecognitionAction Segmentation	—Unverified	0
Coupled Generative Adversarial Network for Continuous Fine-grained Action Segmentation	Sep 20, 2019	Action SegmentationGenerative Adversarial Network	—Unverified	0
LAC: Latent Action Composition for Skeleton-based Action Segmentation	Aug 28, 2023	Action SegmentationContrastive Learning	—Unverified	0
Leveraging Hierarchical Parametric Networks for Skeletal Joints Based Action Segmentation and Recognition	Jun 1, 2014	Action RecognitionAction Segmentation	—Unverified	0
Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in Untrimmed Sequences	Jan 29, 2020	Action RecognitionAction Segmentation	—Unverified	0
Action Segmentation with Mixed Temporal Domain Adaptation	Apr 15, 2021	Action SegmentationDomain Adaptation	—Unverified	0
Continuous Human Action Recognition for Human-Machine Interaction: A Review	Feb 26, 2022	Action RecognitionAction Segmentation	—Unverified	0
Leveraging Action Affinity and Continuity for Semi-supervised Temporal Action Segmentation	Jul 18, 2022	Action SegmentationTemporal Action Segmentation	—Unverified	0
Markov Game Video Augmentation for Action Segmentation	Jan 1, 2023	Action SegmentationData Augmentation	—Unverified	0
Condensing Action Segmentation Datasets via Generative Network Inversion	Mar 18, 2025	Action SegmentationIncremental Learning	—Unverified	0
Coherent Temporal Synthesis for Incremental Action Segmentation	Mar 10, 2024	Action RecognitionAction Segmentation	—Unverified	0
A Generalized & Robust Framework For Timestamp Supervision in Temporal Action Segmentation	Jul 20, 2022	Action SegmentationTAG	—Unverified	0
CASR: Refining Action Segmentation via Marginalizing Frame-levle Causal Relationships	Nov 21, 2023	Action SegmentationCausal Discovery	—Unverified	0
HOIST-Former: Hand-held Objects Identification Segmentation and Tracking in the Wild	Jan 1, 2024	Action SegmentationSegmentation	—Unverified	0
HOIST-Former: Hand-held Objects Identification, Segmentation, and Tracking in the Wild	Apr 22, 2024	Action SegmentationSegmentation	—Unverified	0
ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily Living	Feb 27, 2024	Action SegmentationObject	—Unverified	0
Learning a Weakly-Supervised Video Actor-Action Segmentation Model with a Wise Selection	Mar 29, 2020	Action SegmentationSegmentation	—Unverified	0
C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action Segmentation	Dec 20, 2022	Action SegmentationDecoder	—Unverified	0
Human Action Segmentation With Hierarchical Supervoxel Consistency	Jun 1, 2015	Action ClassificationAction Segmentation	—Unverified	0
Human Action Sequence Classification	Oct 7, 2019	Action ClassificationAction Localization	—Unverified	0
Improving action segmentation via explicit similarity measurement	Feb 15, 2025	Action SegmentationBoundary Detection	—Unverified	0
Improving Action Segmentation via Graph-Based Temporal Reasoning	Jun 1, 2020	Action SegmentationRelation	—Unverified	0
A Circular Window-based Cascade Transformer for Online Action Detection	Aug 30, 2022	Action DetectionAction Segmentation	—Unverified	0
Hierarchical Attention Network for Action Segmentation	May 7, 2020	Action SegmentationSegmentation	—Unverified	0
Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition	Nov 28, 2023	Action ClassificationAction Recognition	—Unverified	0
A Hybrid RNN-HMM Approach for Weakly Supervised Temporal Action Segmentation	Jun 3, 2019	Action RecognitionAction Segmentation	—Unverified	0
Hand Guided High Resolution Feature Enhancement for Fine-Grained Atomic Action Segmentation within Complex Human Assemblies	Nov 24, 2022	Action ClassificationAction Recognition	—Unverified	0
Grasp Type Revisited: A Modern Perspective on a Classical Feature for Vision	Jun 1, 2015	Action SegmentationAction Understanding	—Unverified	0

Show:10 25 50

← PrevPage 2 of 5Next →

All datasets Breakfast 50 Salads GTEA COIN Assembly101 JIGSAWS Youtube INRIA Instructional 50Salads MPII Cooking 2 Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaFocus (newly extracted I3D-features, LT-Context model)	Average F1	76.2	—	Unverified
2	FACT (efficient hybrid of convolution and transformer model)	Average F1	74.7	—	Unverified
3	ASQuery	Average F1	74.6	—	Unverified
4	BIT	Average F1	73.7	—	Unverified
5	DiffAct	Average F1	73.6	—	Unverified
6	BaFormer	Average F1	72.4	—	Unverified
7	CETNet	Average F1	71.8	—	Unverified
8	SF-TMN(ASFormer)	Average F1	71.6	—	Unverified
9	RF++-SSTDA	Acc	70.8	—	Unverified
10	ASPnet	Average F1	70.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Br-Prompt+ASPnet (RGB, flow, accelerometer)	F1@50%	88.5	—	Unverified
2	Semantic2Graph	F1@50%	87.3	—	Unverified
3	BaFormer	F1@50%	83.9	—	Unverified
4	DiffAct	F1@50%	83.7	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	82.9	—	Unverified
6	LTContext	F1@50%	82	—	Unverified
7	UVAST	F1@50%	81.7	—	Unverified
8	Br-Prompt+ASFormer	F1@50%	81.3	—	Unverified
9	EUT	F1@50%	81	—	Unverified
10	CETNet	F1@50%	80.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Semantic2Graph	F1@50%	91.3	—	Unverified
2	FACT	F1@50%	87.5	—	Unverified
3	DiffAct	F1@50%	84.7	—	Unverified
4	BaFormer	F1@50%	83.5	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	83.1	—	Unverified
6	Br-Prompt+ASFormer	F1@50%	83	—	Unverified
7	DPRN	F1@50%	82.9	—	Unverified
8	BIT	F1@50%	82.6	—	Unverified
9	CETNet	F1@50%	81.3	—	Unverified
10	UVAST	F1@50%	81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	Frame accuracy	72.8	—	Unverified
2	Univl	Frame accuracy	70	—	Unverified
3	Norton	Frame accuracy	69.8	—	Unverified
4	VideoClip	Frame accuracy	68.7	—	Unverified
5	TACo	Frame accuracy	68.4	—	Unverified
6	VLM	Frame accuracy	68.4	—	Unverified
7	MIL-NCE	Frame accuracy	61	—	Unverified
8	ActBERT	Frame accuracy	57	—	Unverified
9	CBT	Frame accuracy	53.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASQuery	F1@10%	37.8	—	Unverified
2	LTContext	F1@10%	33.9	—	Unverified
3	ASFormer	F1@10%	33.4	—	Unverified
4	C2F-TCN	F1@10%	33.3	—	Unverified
5	UVAST	F1@10%	32.1	—	Unverified
6	MS-TCN++	F1@10%	31.6	—	Unverified
7	ProTAS(Offline)	F1@10%	28.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RL+Tree	Edit Distance	88.53	—	Unverified
2	RL (full)	Edit Distance	87.96	—	Unverified
3	TricorNet	Edit Distance	86.8	—	Unverified
4	SDL+SC-CRF	Edit Distance	86.21	—	Unverified
5	TCN	Edit Distance	83.1	—	Unverified
6	ST-CNN+Seg	Edit Distance	66.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSA (FINCH)	Acc	62.4	—	Unverified
2	TSA (Kmeans)	Acc	59.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EUT	Acc	87.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Unsup. TW-FINCH (K=avg/activity)	Accuracy	42	—	Unverified