Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 359 papers

Title	Date	Tasks	Status	Hype
Ultra Fast Speech Separation Model with Teacher Student Learning	Apr 27, 2022	Computational EfficiencySpeech Separation	—Unverified	0
Heterogeneous Separation Consistency Training for Adaptation of Unsupervised Speech Separation	Apr 23, 2022	Speech Separation	—Unverified	0
RadioSES: mmWave-Based Audioradio Speech Enhancement and Separation System	Apr 14, 2022	Speech EnhancementSpeech Separation	—Unverified	0
Heterogeneous Target Speech Separation	Apr 7, 2022	Speech Separation	—Unverified	0
Leveraging Real Conversational Data for Multi-Channel Continuous Speech Separation	Apr 7, 2022	Speech Separation	—Unverified	0
Audio-visual multi-channel speech separation, dereverberation and recognition	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Low-Latency Speech Separation Guided Diarization for Telephone Conversations	Apr 5, 2022	Action DetectionActivity Detection	CodeCode Available	1
Target Confusion in End-to-end Speaker Extraction: Analysis and Approaches	Apr 4, 2022	blind source separationMetric Learning	—Unverified	0
Speaker Extraction with Co-Speech Gestures Cue	Mar 31, 2022	Speech Separation	CodeCode Available	0
EEND-SS: Joint End-to-End Neural Speaker Diarization and Speech Separation for Flexible Number of Speakers	Mar 31, 2022	Decoderspeaker-diarization	—Unverified	0
Coarse-to-Fine Recursive Speech Separation for Unknown Number of Speakers	Mar 30, 2022	Speech SeparationTarget Speaker Extraction	—Unverified	0
Disentangling the Impacts of Language and Channel Variability on Speech Separation Networks	Mar 30, 2022	Speech Separation	CodeCode Available	0
Remix-cycle-consistent Learning on Adversarially Learned Separator for Accurate and Stable Unsupervised Speech Separation	Mar 26, 2022	Speech Separation	—Unverified	0
Embedding Recurrent Layers with Dual-Path Strategy in a Variant of Convolutional Network for Speaker-Independent Speech Separation	Mar 25, 2022	Computational EfficiencySpeech Separation	—Unverified	0
Investigating self-supervised learning for speech enhancement and separation	Mar 15, 2022	Self-Supervised LearningSpeech Enhancement	—Unverified	0
VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer	Mar 8, 2022	Speech Separation	CodeCode Available	1
Harmonicity Plays a Critical Role in DNN Based Versus in Biologically-Inspired Monaural Speech Segregation Systems	Mar 8, 2022	Adversarial AttackSpeech Separation	—Unverified	0
Audio-visual speech separation based on joint feature representation with cross-modal attention	Mar 5, 2022	Optical Flow EstimationSpeech Separation	—Unverified	0
Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge	Feb 10, 2022	speaker-diarizationSpeaker Diarization	—Unverified	0
MixCycle: Unsupervised Speech Separation via Cyclic Mixture Permutation Invariant Training	Feb 8, 2022	Data AugmentationSpeech Separation	CodeCode Available	1
Exploring Self-Attention Mechanisms for Speech Separation	Feb 6, 2022	DenoisingSpeech Enhancement	—Unverified	0
The RoyalFlush System of Speech Recognition for M2MeT Challenge	Feb 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation	Jan 26, 2022	Speech Separation	—Unverified	0
Endpoint Detection for Streaming End-to-End Multi-talker ASR	Jan 24, 2022	Sentencespeech-recognition	—Unverified	0
DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation And Extraction	Dec 27, 2021	Speech ExtractionSpeech Separation	CodeCode Available	1
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem	Dec 17, 2021	regressionSpeech Separation	—Unverified	0
Directed Speech Separation for Automatic Speech Recognition of Long Form Conversational Speech	Dec 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Time-domain Real-valued Generalized Wiener Filter for Multi-channel Neural Separation Systems	Dec 7, 2021	Speech Separation	CodeCode Available	1
Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature	Nov 22, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Conformer-based ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement and Speech Separation	Nov 18, 2021	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified	0
Single-channel speech separation using Soft-minimum Permutation Invariant Training	Nov 16, 2021	Speech Separation	—Unverified	0
Inter-channel Conv-TasNet for multichannel speech enhancement	Nov 8, 2021	Speech EnhancementSpeech Separation	—Unverified	0
LiMuSE: Lightweight Multi-modal Speaker Extraction	Nov 7, 2021	Model CompressionQuantization	CodeCode Available	1
Continuous Speech Separation with Recurrent Selective Attention Network	Oct 28, 2021	speech-recognitionSpeech Recognition	—Unverified	0
Separating Long-Form Speech with Group-Wise Permutation Invariant Training	Oct 27, 2021	FormSpeech Separation	—Unverified	0
REAL-M: Towards Speech Separation on Real Mixtures	Oct 20, 2021	Open-Ended Question AnsweringSpeech Separation	CodeCode Available	0
Progressive Learning for Stabilizing Label Selection in Speech Separation with Mapping-based Method	Oct 20, 2021	Speech RecognitionSpeech Separation	—Unverified	0
All-neural beamformer for continuous speech separation	Oct 13, 2021	AllAutomatic Speech Recognition	—Unverified	0
VarArray: Array-Geometry-Agnostic Continuous Speech Separation	Oct 12, 2021	Speech Separation	—Unverified	0
Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain	Oct 10, 2021	speech-recognitionSpeech Recognition	—Unverified	0
North America Bixby Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2021	Sep 28, 2021	Clusteringspeaker-diarization	—Unverified	0
Continuous Streaming Multi-Talker ASR with Dual-path Transducers	Sep 17, 2021	Speech Separation	—Unverified	0
Complementing Handcrafted Features with Raw Waveform Using a Light-weight Auxiliary Model	Sep 6, 2021	speech-recognitionSpeech Recognition	CodeCode Available	0
Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers	Jul 30, 2021	Speech Separation	CodeCode Available	1
Improving Reverberant Speech Separation with Multi-stage Training and Curriculum Learning	Jul 19, 2021	Speech Separation	—Unverified	0
Multi-Task Audio Source Separation	Jul 14, 2021	Audio Source SeparationMulti-task Audio Source Seperation	CodeCode Available	1
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio	Jul 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Separation Guided Speaker Diarization in Realistic Mismatched Conditions	Jul 6, 2021	Clusteringspeaker-diarization	—Unverified	0
Investigation of Practical Aspects of Single Channel Speech Separation for ASR	Jul 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Sparsely Overlapped Speech Training in the Time Domain: Joint Learning of Target Speech Separation and Personal VAD Benefits	Jun 28, 2021	Speech Separation	—Unverified	0

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified