Action Segmentation

Action Segmentation is a challenging problem in high-level video understanding. In its simplest form, Action Segmentation aims to segment a temporally untrimmed video by time and label each segmented part with one of pre-defined action labels. The results of Action Segmentation can be further used as input to various applications, such as video-to-text and action localization.

Source: TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 219 papers

Title	Date	Tasks	Status
LAC - Latent Action Composition for Skeleton-based Action Segmentation	Jan 1, 2023	Action SegmentationContrastive Learning	—Unverified
SSCAP: Self-supervised Co-occurrence Action Parsing for Unsupervised Temporal Action Segmentation	May 29, 2021	Action ParsingAction Segmentation	—Unverified
Continuous Human Action Recognition for Human-Machine Interaction: A Review	Feb 26, 2022	Action RecognitionAction Segmentation	—Unverified
Learning a Weakly-Supervised Video Actor-Action Segmentation Model with a Wise Selection	Mar 29, 2020	Action SegmentationSegmentation	—Unverified
Condensing Action Segmentation Datasets via Generative Network Inversion	Mar 18, 2025	Action SegmentationIncremental Learning	—Unverified
Coherent Temporal Synthesis for Incremental Action Segmentation	Mar 10, 2024	Action RecognitionAction Segmentation	—Unverified
Leveraging Action Affinity and Continuity for Semi-supervised Temporal Action Segmentation	Jul 18, 2022	Action SegmentationTemporal Action Segmentation	—Unverified
Leveraging Hierarchical Parametric Networks for Skeletal Joints Based Action Segmentation and Recognition	Jun 1, 2014	Action RecognitionAction Segmentation	—Unverified
CASR: Refining Action Segmentation via Marginalizing Frame-levle Causal Relationships	Nov 21, 2023	Action SegmentationCausal Discovery	—Unverified
C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action Segmentation	Dec 20, 2022	Action SegmentationDecoder	—Unverified
Long Short View Feature Decomposition via Contrastive Video Representation Learning	Sep 23, 2021	Action RecognitionAction Segmentation	—Unverified
BIT: Bi-Level Temporal Modeling for Efficient Supervised Action Segmentation	Aug 28, 2023	Action SegmentationSegmentation	—Unverified
Faster Diffusion Action Segmentation	Aug 4, 2024	Action SegmentationComputational Efficiency	—Unverified
M2R2: MulitModal Robotic Representation for Temporal Action Segmentation	Apr 25, 2025	Action SegmentationTemporal Action Segmentation	—Unverified
A Wireless-Vision Dataset for Privacy Preserving Human Activity Recognition	May 24, 2022	Action SegmentationActivity Recognition	—Unverified
MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models	May 23, 2024	Action RecognitionAction Segmentation	—Unverified
Markov Game Video Augmentation for Action Segmentation	Jan 1, 2023	Action SegmentationData Augmentation	—Unverified
Maximization and restoration: Action segmentation through dilation passing and temporal reconstruction	May 2, 2022	Action SegmentationSegmentation	—Unverified
MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer	Apr 12, 2023	Action SegmentationDecoder	—Unverified
Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos	May 31, 2020	Action SegmentationMetric Learning	—Unverified
Unsupervised Discriminative Embedding for Sub-Action Learning in Complex Activities	Apr 30, 2021	Action RecognitionAction Segmentation	—Unverified
Automatic Gesture Recognition in Robot-assisted Surgery with Reinforcement Learning and Tree Search	Feb 20, 2020	Action SegmentationGesture Recognition	—Unverified
ASPnet: Action Segmentation With Shared-Private Representation of Multiple Data Sources	Jan 1, 2023	Action SegmentationDisentanglement	—Unverified
Representation Learning on Visual-Symbolic Graphs for Video Understanding	May 17, 2019	Action ClassificationAction Detection	—Unverified
NeuralNetwork-Viterbi: A Framework for Weakly Supervised Video Learning	May 17, 2018	Action SegmentationIncremental Learning	—Unverified
NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence Understanding	Oct 12, 2023	Action SegmentationAutonomous Driving	—Unverified
On Evaluating Weakly Supervised Action Segmentation Methods	May 19, 2020	Action SegmentationSegmentation	—Unverified
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning	Mar 27, 2025	Action Segmentationcounterfactual	—Unverified
Video Action Segmentation via Contextually Refined Temporal Keypoints	Jan 1, 2023	Action SegmentationGraph Matching	—Unverified
O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation	Apr 10, 2024	Action RecognitionAction Segmentation	—Unverified
Video Action Segmentation with Hybrid Temporal Networks	Jan 1, 2018	Action SegmentationDecoder	—Unverified
An End-to-end 3D Convolutional Neural Network for Action Detection and Segmentation in Videos	Nov 30, 2017	Action DetectionAction Segmentation	—Unverified
VideoCapsuleNet: A Simplified Network for Action Detection	May 21, 2018	Action ClassificationAction Detection	—Unverified
An Efficient Framework for Few-shot Skeleton-based Temporal Action Segmentation	Jul 20, 2022	Action SegmentationData Augmentation	—Unverified
An Efficient 3D CNN for Action/Object Segmentation in Video	Jul 21, 2019	Action SegmentationDecoder	—Unverified
Prompt-enhanced Hierarchical Transformer Elevating Cardiopulmonary Resuscitation Instruction via Temporal Action Segmentation	Aug 31, 2023	Action SegmentationSegmentation	—Unverified
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding	Sep 28, 2021	Action LocalizationAction Segmentation	—Unverified
Reducing the Label Bias for Timestamp Supervised Temporal Action Segmentation	Jan 1, 2023	Action SegmentationTemporal Action Segmentation	—Unverified
Anchor-Constrained Viterbi for Set-Supervised Action Segmentation	Apr 5, 2021	Action SegmentationSegmentation	—Unverified
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery	Nov 3, 2020	Action SegmentationGesture Recognition	—Unverified
A Hybrid RNN-HMM Approach for Weakly Supervised Temporal Action Segmentation	Jun 3, 2019	Action RecognitionAction Segmentation	—Unverified
Robotic Imitation of Human Actions	Jan 16, 2024	Action SegmentationImitation Learning	—Unverified
Robust Action Segmentation from Timestamp Supervision	Oct 12, 2022	Action SegmentationSegmentation	—Unverified
A Generalized & Robust Framework For Timestamp Supervision in Temporal Action Segmentation	Jul 20, 2022	Action SegmentationTAG	—Unverified
Segmental Spatiotemporal CNNs for Fine-grained Action Segmentation	Feb 9, 2016	Action ClassificationAction Recognition	—Unverified
Self-supervised pretraining of vision transformers for animal behavioral analysis and neural encoding	Jul 13, 2025	Action SegmentationContrastive Learning	—Unverified
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos	Sep 13, 2022	Action SegmentationGraph Neural Network	—Unverified
Video LLMs for Temporal Reasoning in Long Videos	Dec 4, 2024	Action SegmentationDense Video Captioning	—Unverified
Set-Constrained Viterbi for Set-Supervised Action Segmentation	Feb 27, 2020	Action SegmentationMultiple Instance Learning	—Unverified
ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily Living	Feb 27, 2024	Action SegmentationObject	—Unverified

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets Breakfast 50 Salads GTEA COIN Assembly101 JIGSAWS Youtube INRIA Instructional 50Salads MPII Cooking 2 Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaFocus (newly extracted I3D-features, LT-Context model)	Average F1	76.2	—	Unverified
2	FACT (efficient hybrid of convolution and transformer model)	Average F1	74.7	—	Unverified
3	ASQuery	Average F1	74.6	—	Unverified
4	BIT	Average F1	73.7	—	Unverified
5	DiffAct	Average F1	73.6	—	Unverified
6	BaFormer	Average F1	72.4	—	Unverified
7	CETNet	Average F1	71.8	—	Unverified
8	SF-TMN(ASFormer)	Average F1	71.6	—	Unverified
9	RF++-SSTDA	Acc	70.8	—	Unverified
10	ASPnet	Average F1	70.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Br-Prompt+ASPnet (RGB, flow, accelerometer)	F1@50%	88.5	—	Unverified
2	Semantic2Graph	F1@50%	87.3	—	Unverified
3	BaFormer	F1@50%	83.9	—	Unverified
4	DiffAct	F1@50%	83.7	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	82.9	—	Unverified
6	LTContext	F1@50%	82	—	Unverified
7	UVAST	F1@50%	81.7	—	Unverified
8	Br-Prompt+ASFormer	F1@50%	81.3	—	Unverified
9	EUT	F1@50%	81	—	Unverified
10	CETNet	F1@50%	80.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Semantic2Graph	F1@50%	91.3	—	Unverified
2	FACT	F1@50%	87.5	—	Unverified
3	DiffAct	F1@50%	84.7	—	Unverified
4	BaFormer	F1@50%	83.5	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	83.1	—	Unverified
6	Br-Prompt+ASFormer	F1@50%	83	—	Unverified
7	DPRN	F1@50%	82.9	—	Unverified
8	BIT	F1@50%	82.6	—	Unverified
9	CETNet	F1@50%	81.3	—	Unverified
10	UVAST	F1@50%	81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	Frame accuracy	72.8	—	Unverified
2	Univl	Frame accuracy	70	—	Unverified
3	Norton	Frame accuracy	69.8	—	Unverified
4	VideoClip	Frame accuracy	68.7	—	Unverified
5	TACo	Frame accuracy	68.4	—	Unverified
6	VLM	Frame accuracy	68.4	—	Unverified
7	MIL-NCE	Frame accuracy	61	—	Unverified
8	ActBERT	Frame accuracy	57	—	Unverified
9	CBT	Frame accuracy	53.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASQuery	F1@10%	37.8	—	Unverified
2	LTContext	F1@10%	33.9	—	Unverified
3	ASFormer	F1@10%	33.4	—	Unverified
4	C2F-TCN	F1@10%	33.3	—	Unverified
5	UVAST	F1@10%	32.1	—	Unverified
6	MS-TCN++	F1@10%	31.6	—	Unverified
7	ProTAS(Offline)	F1@10%	28.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RL+Tree	Edit Distance	88.53	—	Unverified
2	RL (full)	Edit Distance	87.96	—	Unverified
3	TricorNet	Edit Distance	86.8	—	Unverified
4	SDL+SC-CRF	Edit Distance	86.21	—	Unverified
5	TCN	Edit Distance	83.1	—	Unverified
6	ST-CNN+Seg	Edit Distance	66.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSA (FINCH)	Acc	62.4	—	Unverified
2	TSA (Kmeans)	Acc	59.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EUT	Acc	87.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Unsup. TW-FINCH (K=avg/activity)	Accuracy	42	—	Unverified