Action Segmentation

Action Segmentation is a challenging problem in high-level video understanding. In its simplest form, Action Segmentation aims to segment a temporally untrimmed video by time and label each segmented part with one of pre-defined action labels. The results of Action Segmentation can be further used as input to various applications, such as video-to-text and action localization.

Source: TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 219 papers

Title	Date	Tasks	Status
Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos	Apr 7, 2025	Action SegmentationRepresentation Learning	—Unverified
UnLoc: A Unified Framework for Video Localization Tasks	Aug 21, 2023	Action SegmentationMoment Retrieval	—Unverified
Unsupervised Action Segmentation for Instructional Videos	Jun 7, 2021	Action SegmentationSegmentation	—Unverified
SSCAP: Self-supervised Co-occurrence Action Parsing for Unsupervised Temporal Action Segmentation	May 29, 2021	Action ParsingAction Segmentation	—Unverified
Unsupervised Discriminative Embedding for Sub-Action Learning in Complex Activities	Apr 30, 2021	Action RecognitionAction Segmentation	—Unverified
Video Action Segmentation via Contextually Refined Temporal Keypoints	Jan 1, 2023	Action SegmentationGraph Matching	—Unverified
Video Action Segmentation with Hybrid Temporal Networks	Jan 1, 2018	Action SegmentationDecoder	—Unverified
VideoCapsuleNet: A Simplified Network for Action Detection	May 21, 2018	Action ClassificationAction Detection	—Unverified
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding	Sep 28, 2021	Action LocalizationAction Segmentation	—Unverified
Video LLMs for Temporal Reasoning in Long Videos	Dec 4, 2024	Action SegmentationDense Video Captioning	—Unverified
ViSTec: Video Modeling for Sports Technique Recognition and Tactical Analysis	Feb 25, 2024	Action SegmentationInductive Bias	—Unverified
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	—Unverified
Watch-Bot: Unsupervised Learning for Reminding Humans of Forgotten Actions	Dec 14, 2015	Action SegmentationObject	—Unverified
Watch-n-Patch: Unsupervised Learning of Actions and Relations	Mar 11, 2016	Action SegmentationClustering	—Unverified
Watch-n-Patch: Unsupervised Understanding of Actions and Relations	Jun 1, 2015	Action SegmentationUnsupervised Action Segmentation	—Unverified
Weakly-Supervised Action Segmentation and Unseen Error Detection in Anomalous Instructional Videos	Jan 1, 2023	Action SegmentationSegmentation	—Unverified
Weakly Supervised Actor-Action Segmentation via Robust Multi-Task Ranking	Jul 1, 2017	Action ClassificationAction Segmentation	—Unverified
Weakly-Supervised Online Action Segmentation in Multi-View Instructional Videos	Mar 24, 2022	Action SegmentationSegmentation	—Unverified
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning	Mar 27, 2025	Action Segmentationcounterfactual	—Unverified
O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation	Apr 10, 2024	Action RecognitionAction Segmentation	—Unverified
Prompt-enhanced Hierarchical Transformer Elevating Cardiopulmonary Resuscitation Instruction via Temporal Action Segmentation	Aug 31, 2023	Action SegmentationSegmentation	—Unverified
Reducing the Label Bias for Timestamp Supervised Temporal Action Segmentation	Jan 1, 2023	Action SegmentationTemporal Action Segmentation	—Unverified
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery	Nov 3, 2020	Action SegmentationGesture Recognition	—Unverified
Robotic Imitation of Human Actions	Jan 16, 2024	Action SegmentationImitation Learning	—Unverified
Robust Action Segmentation from Timestamp Supervision	Oct 12, 2022	Action SegmentationSegmentation	—Unverified

Show:10 25 50

← PrevPage 7 of 9Next →

All datasets Breakfast 50 Salads GTEA COIN Assembly101 JIGSAWS Youtube INRIA Instructional 50Salads MPII Cooking 2 Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaFocus (newly extracted I3D-features, LT-Context model)	Average F1	76.2	—	Unverified
2	FACT (efficient hybrid of convolution and transformer model)	Average F1	74.7	—	Unverified
3	ASQuery	Average F1	74.6	—	Unverified
4	BIT	Average F1	73.7	—	Unverified
5	DiffAct	Average F1	73.6	—	Unverified
6	BaFormer	Average F1	72.4	—	Unverified
7	CETNet	Average F1	71.8	—	Unverified
8	SF-TMN(ASFormer)	Average F1	71.6	—	Unverified
9	RF++-SSTDA	Acc	70.8	—	Unverified
10	ASPnet	Average F1	70.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Br-Prompt+ASPnet (RGB, flow, accelerometer)	F1@50%	88.5	—	Unverified
2	Semantic2Graph	F1@50%	87.3	—	Unverified
3	BaFormer	F1@50%	83.9	—	Unverified
4	DiffAct	F1@50%	83.7	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	82.9	—	Unverified
6	LTContext	F1@50%	82	—	Unverified
7	UVAST	F1@50%	81.7	—	Unverified
8	Br-Prompt+ASFormer	F1@50%	81.3	—	Unverified
9	EUT	F1@50%	81	—	Unverified
10	CETNet	F1@50%	80.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Semantic2Graph	F1@50%	91.3	—	Unverified
2	FACT	F1@50%	87.5	—	Unverified
3	DiffAct	F1@50%	84.7	—	Unverified
4	BaFormer	F1@50%	83.5	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	83.1	—	Unverified
6	Br-Prompt+ASFormer	F1@50%	83	—	Unverified
7	DPRN	F1@50%	82.9	—	Unverified
8	BIT	F1@50%	82.6	—	Unverified
9	CETNet	F1@50%	81.3	—	Unverified
10	UVAST	F1@50%	81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	Frame accuracy	72.8	—	Unverified
2	Univl	Frame accuracy	70	—	Unverified
3	Norton	Frame accuracy	69.8	—	Unverified
4	VideoClip	Frame accuracy	68.7	—	Unverified
5	TACo	Frame accuracy	68.4	—	Unverified
6	VLM	Frame accuracy	68.4	—	Unverified
7	MIL-NCE	Frame accuracy	61	—	Unverified
8	ActBERT	Frame accuracy	57	—	Unverified
9	CBT	Frame accuracy	53.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASQuery	F1@10%	37.8	—	Unverified
2	LTContext	F1@10%	33.9	—	Unverified
3	ASFormer	F1@10%	33.4	—	Unverified
4	C2F-TCN	F1@10%	33.3	—	Unverified
5	UVAST	F1@10%	32.1	—	Unverified
6	MS-TCN++	F1@10%	31.6	—	Unverified
7	ProTAS(Offline)	F1@10%	28.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RL+Tree	Edit Distance	88.53	—	Unverified
2	RL (full)	Edit Distance	87.96	—	Unverified
3	TricorNet	Edit Distance	86.8	—	Unverified
4	SDL+SC-CRF	Edit Distance	86.21	—	Unverified
5	TCN	Edit Distance	83.1	—	Unverified
6	ST-CNN+Seg	Edit Distance	66.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSA (FINCH)	Acc	62.4	—	Unverified
2	TSA (Kmeans)	Acc	59.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EUT	Acc	87.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Unsup. TW-FINCH (K=avg/activity)	Accuracy	42	—	Unverified