Action Segmentation

Action Segmentation is a challenging problem in high-level video understanding. In its simplest form, Action Segmentation aims to segment a temporally untrimmed video by time and label each segmented part with one of pre-defined action labels. The results of Action Segmentation can be further used as input to various applications, such as video-to-text and action localization.

Source: TricorNet: A Hybrid Temporal Convolutional and Recurrent Network for Video Action Segmentation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 219 papers

Title	Date	Tasks	Status	Hype
Learning Discriminative Prototypes with Dynamic Time Warping	Mar 17, 2021	Action SegmentationDynamic Time Warping	CodeCode Available	1
Temporal Action Segmentation from Timestamp Supervision	Mar 11, 2021	Action SegmentationSegmentation	CodeCode Available	1
Depthwise Separable Temporal Convolutional Network for Action Segmentation	Jan 19, 2021	Action SegmentationDecoder	—Unverified	0
Global2Local: Efficient Structure Search for Video Action Segmentation	Jan 4, 2021	Action SegmentationSegmentation	CodeCode Available	1
Refining Action Segmentation With Hierarchical Video Representations	Jan 1, 2021	Action SegmentationSegmentation	CodeCode Available	1
Weakly-Supervised Action Segmentation and Alignment via Transcript-Aware Union-of-Subspaces Learning	Jan 1, 2021	Action SegmentationWeakly Supervised Action Segmentation (Transcript)	CodeCode Available	0
Temporal Relational Modeling with Self-Supervision for Action Segmentation	Dec 14, 2020	Action RecognitionAction Segmentation	CodeCode Available	1
Alleviating Class-wise Gradient Imbalance for Pulmonary Airway Segmentation	Nov 24, 2020	Action Segmentation	CodeCode Available	1
ActBERT: Learning Global-Local Video-Text Representations	Nov 14, 2020	Action SegmentationQuestion Answering	CodeCode Available	0
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery	Nov 3, 2020	Action SegmentationGesture Recognition	—Unverified	0
Actor and Action Modular Network for Text-based Video Segmentation	Nov 2, 2020	Action SegmentationAction Understanding	—Unverified	0
Online Spatiotemporal Action Detection and Prediction via Causal Representations	Aug 31, 2020	Action DetectionAction Recognition	CodeCode Available	0
Boundary-Aware Cascade Networks for Temporal Action Segmentation	Aug 1, 2020	Action SegmentationTemporal Action Segmentation	CodeCode Available	1
Alleviating Over-segmentation Errors by Detecting Action Boundaries	Jul 14, 2020	Action ClassificationAction Segmentation	CodeCode Available	1
MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation	Jun 16, 2020	Action SegmentationSegmentation	CodeCode Available	1
Improving Action Segmentation via Graph-Based Temporal Reasoning	Jun 1, 2020	Action SegmentationRelation	—Unverified	0
Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos	May 31, 2020	Action SegmentationMetric Learning	—Unverified	0
On Evaluating Weakly Supervised Action Segmentation Methods	May 19, 2020	Action SegmentationSegmentation	—Unverified	0
Hierarchical Attention Network for Action Segmentation	May 7, 2020	Action SegmentationSegmentation	—Unverified	0
Learning to Segment Actions from Observation and Narration	May 7, 2020	Action SegmentationSegmentation	CodeCode Available	1
SCT: Set Constrained Temporal Transformer for Set Supervised Action Segmentation	Mar 31, 2020	Action SegmentationTemporal Action Segmentation	CodeCode Available	1
Learning a Weakly-Supervised Video Actor-Action Segmentation Model with a Wise Selection	Mar 29, 2020	Action SegmentationSegmentation	—Unverified	0
Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation	Mar 5, 2020	Action SegmentationDomain Adaptation	CodeCode Available	1
Set-Constrained Viterbi for Set-Supervised Action Segmentation	Feb 27, 2020	Action SegmentationMultiple Instance Learning	—Unverified	0
Automatic Gesture Recognition in Robot-assisted Surgery with Reinforcement Learning and Tree Search	Feb 20, 2020	Action SegmentationGesture Recognition	—Unverified	0
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation	Feb 15, 2020	Action SegmentationDecoder	CodeCode Available	1
Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in Untrimmed Sequences	Jan 29, 2020	Action RecognitionAction Segmentation	—Unverified	0
End-to-End Learning of Visual Representations from Uncurated Instructional Videos	Dec 13, 2019	Action LocalizationAction Recognition	CodeCode Available	1
Human Action Sequence Classification	Oct 7, 2019	Action ClassificationAction Localization	—Unverified	0
Weakly Supervised Energy-Based Learning for Action Segmentation	Sep 28, 2019	Action SegmentationSegmentation	CodeCode Available	0
Coupled Generative Adversarial Network for Continuous Fine-grained Action Segmentation	Sep 20, 2019	Action SegmentationGenerative Adversarial Network	—Unverified	0
Fine-grained Action Segmentation using the Semi-Supervised Action GAN	Sep 20, 2019	Action ClassificationAction Segmentation	—Unverified	0
An Efficient 3D CNN for Action/Object Segmentation in Video	Jul 21, 2019	Action SegmentationDecoder	—Unverified	0
Frontal Low-rank Random Tensors for Fine-grained Action Segmentation	Jun 3, 2019	Action ParsingAction Segmentation	CodeCode Available	0
A Hybrid RNN-HMM Approach for Weakly Supervised Temporal Action Segmentation	Jun 3, 2019	Action RecognitionAction Segmentation	—Unverified	0
Representation Learning on Visual-Symbolic Graphs for Video Understanding	May 17, 2019	Action ClassificationAction Detection	—Unverified	0
Temporal Unet: Sample Level Human Action Recognition using WiFi	Apr 19, 2019	Action LocalizationAction Recognition	CodeCode Available	0
Unsupervised learning of action classes with continuous temporal embedding	Apr 8, 2019	Action SegmentationUnsupervised Action Segmentation	CodeCode Available	0
Fast Weakly Supervised Action Segmentation Using Mutual Consistency	Apr 5, 2019	Action SegmentationSegmentation	CodeCode Available	0
MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation	Mar 5, 2019	Action SegmentationSegmentation	CodeCode Available	0
Fine-Grained Semantic Segmentation of Motion Capture Data using Dilated Temporal Fully-Convolutional Networks	Mar 2, 2019	Action SegmentationImage Segmentation	—Unverified	0
Toward Ergonomic Risk Prediction via Segmentation of Indoor Object Manipulation Actions Using Spatiotemporal Convolutional Networks	Feb 14, 2019	Action Segmentation	CodeCode Available	0
Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation	Nov 26, 2018	Action RecognitionAction Segmentation	—Unverified	0
Actor-Action Semantic Segmentation with Region Masks	Jul 23, 2018	Action SegmentationInstance Segmentation	—Unverified	0
Dilated Temporal Fully-Convolutional Network for Semantic Segmentation of Motion Capture Data	Jun 24, 2018	Action SegmentationMotion Synthesis	—Unverified	0
Deep Reinforcement Learning for Surgical Gesture Segmentation and Classification	Jun 21, 2018	Action SegmentationClassification	CodeCode Available	0
Temporal Deformable Residual Networks for Action Segmentation in Videos	Jun 1, 2018	Action SegmentationSegmentation	—Unverified	0
VideoCapsuleNet: A Simplified Network for Action Detection	May 21, 2018	Action ClassificationAction Detection	—Unverified	0
NeuralNetwork-Viterbi: A Framework for Weakly Supervised Video Learning	May 17, 2018	Action SegmentationIncremental Learning	—Unverified	0
Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment	Mar 28, 2018	Action Segmentation	CodeCode Available	0

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets Breakfast 50 Salads GTEA COIN Assembly101 JIGSAWS Youtube INRIA Instructional 50Salads MPII Cooking 2 Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AdaFocus (newly extracted I3D-features, LT-Context model)	Average F1	76.2	—	Unverified
2	FACT (efficient hybrid of convolution and transformer model)	Average F1	74.7	—	Unverified
3	ASQuery	Average F1	74.6	—	Unverified
4	BIT	Average F1	73.7	—	Unverified
5	DiffAct	Average F1	73.6	—	Unverified
6	BaFormer	Average F1	72.4	—	Unverified
7	CETNet	Average F1	71.8	—	Unverified
8	SF-TMN(ASFormer)	Average F1	71.6	—	Unverified
9	RF++-SSTDA	Acc	70.8	—	Unverified
10	ASPnet	Average F1	70.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Br-Prompt+ASPnet (RGB, flow, accelerometer)	F1@50%	88.5	—	Unverified
2	Semantic2Graph	F1@50%	87.3	—	Unverified
3	BaFormer	F1@50%	83.9	—	Unverified
4	DiffAct	F1@50%	83.7	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	82.9	—	Unverified
6	LTContext	F1@50%	82	—	Unverified
7	UVAST	F1@50%	81.7	—	Unverified
8	Br-Prompt+ASFormer	F1@50%	81.3	—	Unverified
9	EUT	F1@50%	81	—	Unverified
10	CETNet	F1@50%	80.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Semantic2Graph	F1@50%	91.3	—	Unverified
2	FACT	F1@50%	87.5	—	Unverified
3	DiffAct	F1@50%	84.7	—	Unverified
4	BaFormer	F1@50%	83.5	—	Unverified
5	SF-TMN(ASFormer)	F1@50%	83.1	—	Unverified
6	Br-Prompt+ASFormer	F1@50%	83	—	Unverified
7	DPRN	F1@50%	82.9	—	Unverified
8	BIT	F1@50%	82.6	—	Unverified
9	CETNet	F1@50%	81.3	—	Unverified
10	UVAST	F1@50%	81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnLoc-L	Frame accuracy	72.8	—	Unverified
2	Univl	Frame accuracy	70	—	Unverified
3	Norton	Frame accuracy	69.8	—	Unverified
4	VideoClip	Frame accuracy	68.7	—	Unverified
5	TACo	Frame accuracy	68.4	—	Unverified
6	VLM	Frame accuracy	68.4	—	Unverified
7	MIL-NCE	Frame accuracy	61	—	Unverified
8	ActBERT	Frame accuracy	57	—	Unverified
9	CBT	Frame accuracy	53.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASQuery	F1@10%	37.8	—	Unverified
2	LTContext	F1@10%	33.9	—	Unverified
3	ASFormer	F1@10%	33.4	—	Unverified
4	C2F-TCN	F1@10%	33.3	—	Unverified
5	UVAST	F1@10%	32.1	—	Unverified
6	MS-TCN++	F1@10%	31.6	—	Unverified
7	ProTAS(Offline)	F1@10%	28.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RL+Tree	Edit Distance	88.53	—	Unverified
2	RL (full)	Edit Distance	87.96	—	Unverified
3	TricorNet	Edit Distance	86.8	—	Unverified
4	SDL+SC-CRF	Edit Distance	86.21	—	Unverified
5	TCN	Edit Distance	83.1	—	Unverified
6	ST-CNN+Seg	Edit Distance	66.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSA (FINCH)	Acc	62.4	—	Unverified
2	TSA (Kmeans)	Acc	59.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EUT	Acc	87.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Unsup. TW-FINCH (K=avg/activity)	Accuracy	42	—	Unverified