Action Segmentation

Action Segmentation is a challenging problem in high-level video understanding. In its simplest form, Action Segmentation aims to segment a temporally untrimmed video by time and label each segmented part with one of pre-defined action labels. The results of Action Segmentation can be further used as input to various applications, such as video-to-text and action localization.

Source: TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 219 papers

Title	Date	Tasks	Status	Hype
FACT: Frame-Action Cross-Attention Temporal Modeling for Efficient Action Segmentation	Jan 1, 2024	Action SegmentationSegmentation	CodeCode Available	2
Hierarchical NeuroSymbolic Approach for Comprehensive and Explainable Action Quality Assessment	Mar 20, 2024	Action Quality AssessmentAction Quality Assessment Report Generation	CodeCode Available	2
Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation	Apr 1, 2024	Action SegmentationSegmentation	CodeCode Available	2
Is Weakly-supervised Action Segmentation Ready For Human-Robot Interaction? No, Let's Improve It With Action-union Learning	Oct 22, 2023	Action RecognitionAction Segmentation	CodeCode Available	2
Multi-granularity Correspondence Learning from Long-term Noisy Videos	Jan 30, 2024	Action SegmentationLong Video Retrieval (Background Removed)	CodeCode Available	2
Temporal Action Segmentation: An Analysis of Modern Techniques	Oct 19, 2022	Action SegmentationSegmentation	CodeCode Available	2
Temporal Alignment Networks for Long-term Video	Apr 6, 2022	Action RecognitionAction Segmentation	CodeCode Available	1
RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks	Jun 14, 2022	Action SegmentationInstance Segmentation	CodeCode Available	1
Temporal Convolutional Networks for Action Segmentation and Detection	Nov 16, 2016	Action SegmentationDecoder	CodeCode Available	1
LOGO: A Long-Form Video Dataset for Group Action Quality Assessment	Apr 7, 2024	Action Quality AssessmentAction Segmentation	CodeCode Available	1
Pretrained Language Models as Visual Planners for Human Assistance	Apr 17, 2023	Action SegmentationLanguage Modelling	CodeCode Available	1
Refining Action Segmentation With Hierarchical Video Representations	Jan 1, 2021	Action SegmentationSegmentation	CodeCode Available	1
Skeleton-Based Action Segmentation with Multi-Stage Spatial-Temporal Graph Convolutional Neural Networks	Feb 3, 2022	Action SegmentationSkeleton Based Action Segmentation	CodeCode Available	1
Temporal Action Segmentation from Timestamp Supervision	Mar 11, 2021	Action SegmentationSegmentation	CodeCode Available	1
Iterative Contrast-Classify For Semi-supervised Temporal Action Segmentation	Dec 2, 2021	Action SegmentationRepresentation Learning	CodeCode Available	1
Long-Tail Temporal Action Segmentation with Group-wise Temporal Logit Adjustment	Aug 19, 2024	Action SegmentationSegmentation	CodeCode Available	1
Global2Local: Efficient Structure Search for Video Action Segmentation	Jan 4, 2021	Action SegmentationSegmentation	CodeCode Available	1
Automated freezing of gait assessment with marker-based motion capture and multi-stage spatial-temporal graph convolutional neural networks	Mar 29, 2021	Action SegmentationSegmentation	CodeCode Available	1
How Much Temporal Long-Term Context is Needed for Action Segmentation?	Aug 22, 2023	Action SegmentationSegmentation	CodeCode Available	1
Bridge-Prompt: Towards Ordinal Action Understanding in Instructional Videos	Mar 26, 2022	Action SegmentationAction Understanding	CodeCode Available	1
Language-Assisted Skeleton Action Understanding for Skeleton-Based Temporal Action Segmentation	Oct 31, 2024	Action SegmentationAction Understanding	CodeCode Available	1
Leveraging triplet loss for unsupervised action segmentation	Apr 13, 2023	Action SegmentationClustering	CodeCode Available	1
Diffusion Action Segmentation	Mar 31, 2023	Action SegmentationDenoising	CodeCode Available	1
Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment	May 31, 2023	Action SegmentationDecoder	CodeCode Available	1
Alleviating Over-segmentation Errors by Detecting Action Boundaries	Jul 14, 2020	Action ClassificationAction Segmentation	CodeCode Available	1
Progress-Aware Online Action Segmentation for Egocentric Procedural Task Videos	Jan 1, 2024	Action SegmentationSegmentation	CodeCode Available	1
SCT: Set Constrained Temporal Transformer for Set Supervised Action Segmentation	Mar 31, 2020	Action SegmentationTemporal Action Segmentation	CodeCode Available	1
Set-Supervised Action Learning in Procedural Task Videos via Pairwise Order Consistency	Jan 1, 2022	Action LocalizationAction Segmentation	CodeCode Available	1
Streaming Video Temporal Action Segmentation In Real Time	Sep 28, 2022	Action SegmentationLanguage Modelling	CodeCode Available	1
EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models	Jun 2, 2025	Action RecognitionAction Segmentation	CodeCode Available	1
3D Pose-Based Temporal Action Segmentation for Figure Skating: A Fine-Grained and Jump Procedure-Aware Annotation Approach	Aug 29, 2024	Action SegmentationMarkerless Motion Capture	CodeCode Available	1
ASQuery: A Query-based Model for Action Segmentation	Sep 30, 2024	Action SegmentationDecoder	CodeCode Available	1
End-to-End Learning of Visual Representations from Uncurated Instructional Videos	Dec 13, 2019	Action LocalizationAction Recognition	CodeCode Available	1
Activity Grammars for Temporal Action Segmentation	Dec 7, 2023	Action SegmentationSegmentation	CodeCode Available	1
ASFormer: Transformer for Action Segmentation	Oct 16, 2021	Action SegmentationDecoder	CodeCode Available	1
Efficient Two-Step Networks for Temporal Action Segmentation	Apr 30, 2021	Action SegmentationSegmentation	CodeCode Available	1
Actor and Action Video Segmentation from a Sentence	Mar 20, 2018	Action SegmentationDecoder	CodeCode Available	1
Few-Shot Temporal Action Localization with Query Adaptive Transformer	Oct 20, 2021	Action LocalizationAction Segmentation	CodeCode Available	1
HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction	Mar 3, 2022	Action SegmentationBenchmarking	CodeCode Available	1
Boundary-Aware Cascade Networks for Temporal Action Segmentation	Aug 1, 2020	Action SegmentationTemporal Action Segmentation	CodeCode Available	1
End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning	Sep 27, 2023	Action RecognitionAction Segmentation	CodeCode Available	1
A Decoupled Spatio-Temporal Framework for Skeleton-based Action Segmentation	Dec 10, 2023	Action SegmentationSkeleton Based Action Segmentation	CodeCode Available	1
Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation	Mar 5, 2020	Action SegmentationDomain Adaptation	CodeCode Available	1
Coarse to Fine Multi-Resolution Temporal Convolutional Network	May 23, 2021	Action SegmentationDecoder	CodeCode Available	1
Learning Discriminative Prototypes with Dynamic Time Warping	Mar 17, 2021	Action SegmentationDynamic Time Warping	CodeCode Available	1
Learning to Segment Actions from Observation and Narration	May 7, 2020	Action SegmentationSegmentation	CodeCode Available	1
Hierarchical Vector Quantization for Unsupervised Action Segmentation	Dec 23, 2024	Action SegmentationClustering	CodeCode Available	1
MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation	Jun 16, 2020	Action SegmentationSegmentation	CodeCode Available	1
Alleviating Class-wise Gradient Imbalance for Pulmonary Airway Segmentation	Nov 24, 2020	Action Segmentation	CodeCode Available	1
Mamba4D: Efficient 4D Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models	Jan 1, 2025	Action RecognitionAction Segmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets Breakfast 50 Salads GTEA COIN Assembly101 JIGSAWS Youtube INRIA Instructional 50Salads MPII Cooking 2 Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaFocus (newly extracted I3D-features, LT-Context model)	Average F1	76.2	—	Unverified
2	FACT (efficient hybrid of convolution and transformer model)	Average F1	74.7	—	Unverified
3	ASQuery	Average F1	74.6	—	Unverified
4	BIT	Average F1	73.7	—	Unverified
5	DiffAct	Average F1	73.6	—	Unverified
6	BaFormer	Average F1	72.4	—	Unverified
7	CETNet	Average F1	71.8	—	Unverified
8	SF-TMN(ASFormer)	Average F1	71.6	—	Unverified
9	RF++-SSTDA	Acc	70.8	—	Unverified
10	ASPnet	Average F1	70.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Br-Prompt+ASPnet (RGB, flow, accelerometer)	F1@50%	88.5	—	Unverified
2	Semantic2Graph	F1@50%	87.3	—	Unverified
3	BaFormer	F1@50%	83.9	—	Unverified
4	DiffAct	F1@50%	83.7	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	82.9	—	Unverified
6	LTContext	F1@50%	82	—	Unverified
7	UVAST	F1@50%	81.7	—	Unverified
8	Br-Prompt+ASFormer	F1@50%	81.3	—	Unverified
9	EUT	F1@50%	81	—	Unverified
10	CETNet	F1@50%	80.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Semantic2Graph	F1@50%	91.3	—	Unverified
2	FACT	F1@50%	87.5	—	Unverified
3	DiffAct	F1@50%	84.7	—	Unverified
4	BaFormer	F1@50%	83.5	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	83.1	—	Unverified
6	Br-Prompt+ASFormer	F1@50%	83	—	Unverified
7	DPRN	F1@50%	82.9	—	Unverified
8	BIT	F1@50%	82.6	—	Unverified
9	CETNet	F1@50%	81.3	—	Unverified
10	UVAST	F1@50%	81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	Frame accuracy	72.8	—	Unverified
2	Univl	Frame accuracy	70	—	Unverified
3	Norton	Frame accuracy	69.8	—	Unverified
4	VideoClip	Frame accuracy	68.7	—	Unverified
5	TACo	Frame accuracy	68.4	—	Unverified
6	VLM	Frame accuracy	68.4	—	Unverified
7	MIL-NCE	Frame accuracy	61	—	Unverified
8	ActBERT	Frame accuracy	57	—	Unverified
9	CBT	Frame accuracy	53.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASQuery	F1@10%	37.8	—	Unverified
2	LTContext	F1@10%	33.9	—	Unverified
3	ASFormer	F1@10%	33.4	—	Unverified
4	C2F-TCN	F1@10%	33.3	—	Unverified
5	UVAST	F1@10%	32.1	—	Unverified
6	MS-TCN++	F1@10%	31.6	—	Unverified
7	ProTAS(Offline)	F1@10%	28.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RL+Tree	Edit Distance	88.53	—	Unverified
2	RL (full)	Edit Distance	87.96	—	Unverified
3	TricorNet	Edit Distance	86.8	—	Unverified
4	SDL+SC-CRF	Edit Distance	86.21	—	Unverified
5	TCN	Edit Distance	83.1	—	Unverified
6	ST-CNN+Seg	Edit Distance	66.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSA (FINCH)	Acc	62.4	—	Unverified
2	TSA (Kmeans)	Acc	59.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EUT	Acc	87.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Unsup. TW-FINCH (K=avg/activity)	Accuracy	42	—	Unverified