Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 359 papers

Title	Date	Tasks	Status
Sequential Multi-Frame Neural Beamforming for Speech Separation and Enhancement	Nov 18, 2019	Speaker SeparationSpeech Enhancement	—Unverified
Onssen: an open-source speech separation and enhancement library	Nov 3, 2019	Deep Clusteringspeech-recognition	CodeCode Available
Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation	Oct 29, 2019	Speech Separation	—Unverified
Interrupted and cascaded permutation invariant training for speech separation	Oct 28, 2019	Speech Separation	CodeCode Available
Mixup-breakdown: a consistency training method for improving generalization of speech separation models	Oct 28, 2019	Speech Separation	—Unverified
A Multi-Phase Gammatone Filterbank for Speech Separation via TasNet	Oct 25, 2019	Low-latency processingSpeech Separation	CodeCode Available
Analyzing the impact of speaker localization errors on speech separation for automatic speech recognition	Oct 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Multi-channel Speech Separation Using Deep Embedding Model with Multilayer Bootstrap Networks	Oct 24, 2019	ClusteringDeep Clustering	—Unverified
Filterbank design for end-to-end speech separation	Oct 23, 2019	Speaker RecognitionSpeech Separation	CodeCode Available
Two-Step Sound Source Separation: Training on Learned Latent Targets	Oct 22, 2019	Speech SeparationVocal Bursts Valence Prediction	CodeCode Available
Multi-Talker MVDR Beamforming Based on Extended Complex Gaussian Mixture Model	Oct 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MIMO-SPEECH: End-to-End Multi-Channel Multi-Speaker Speech Recognition	Oct 15, 2019	speech-recognitionSpeech Recognition	—Unverified
Probabilistic Permutation Invariant Training for Speech Separation	Aug 4, 2019	Speech Separation	—Unverified
Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features	Jul 23, 2019	ClusteringDeep Clustering	—Unverified
WHAM!: Extending Speech Separation to Noisy Environments	Jul 2, 2019	Speech Separation	CodeCode Available
Single-Channel Speech Separation with Auxiliary Speaker Embeddings	Jun 24, 2019	Speech Separation	—Unverified
A comprehensive study of speech separation: spectrogram vs waveform separation	May 17, 2019	speech-recognitionSpeech Recognition	—Unverified
End-to-End Multi-Channel Speech Separation	May 15, 2019	Speech Separation	—Unverified
Universal Sound Separation	May 8, 2019	Speech EnhancementSpeech Separation	—Unverified
Divide and Conquer: A Deep CASA Approach to Talker-independent Monaural Speaker Separation	Apr 25, 2019	ClusteringSpeaker Separation	CodeCode Available
Improved Speech Separation with Time-and-Frequency Cross-domain Joint Embedding and Clustering	Apr 16, 2019	ClusteringSpeech Separation	CodeCode Available
Low-Latency Speaker-Independent Continuous Speech Separation	Apr 13, 2019	speech-recognitionSpeech Recognition	—Unverified
Orthonormal Embedding-based Deep Clustering for Single-channel Speech Separation	Jan 15, 2019	ClusteringDeep Clustering	—Unverified
Tensor-Train Long Short-Term Memory for Monaural Speech Enhancement	Dec 25, 2018	Speech EnhancementSpeech Separation	—Unverified
Semi-Supervised Monaural Singing Voice Separation With a Masking Network Trained on Synthetic Mixtures	Dec 14, 2018	Music Source SeparationSpeech Separation	CodeCode Available
Face Landmark-based Speaker-Independent Audio-Visual Speech Enhancement in Multi-Talker Environments	Nov 6, 2018	Speech EnhancementSpeech Separation	CodeCode Available
Building Corpora for Single-Channel Speech Separation Across Multiple Domains	Nov 6, 2018	Speech Separation	—Unverified
Unsupervised Deep Clustering for Source Separation: Direct Learning from Mixtures using Spatial Information	Nov 5, 2018	ClusteringDeep Clustering	CodeCode Available
End-to-End Monaural Multi-speaker ASR System without Pretraining	Nov 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural Networks	Oct 8, 2018	speech-recognitionSpeech Recognition	—Unverified
End-to-end Networks for Supervised Single-channel Speech Separation	Oct 5, 2018	Speech Separation	—Unverified
Real-time Single-channel Dereverberation and Separation with Time-domainAudio Separation Network	Sep 2, 2018	DenoisingSpeech Dereverberation	CodeCode Available
DNN driven Speaker Independent Audio-Visual Mask Estimation for Speech Separation	Jul 31, 2018	Speech Separation	—Unverified
Sound Signal Processing with Seq2Tree Network	May 1, 2018	Speech Separation	—Unverified
End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction	Apr 26, 2018	Speech Separation	—Unverified
Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation	Apr 10, 2018	Speech Separation	CodeCode Available
Alternative Objective Functions for Deep Clustering	Apr 1, 2018	ClusteringDeep Clustering	CodeCode Available
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TasNet: time-domain audio separation network for real-time, single-channel speech separation	Nov 1, 2017	DecoderSpeech Separation	CodeCode Available
Singing Voice Separation with Deep U-Net Convolutional Networks	Oct 27, 2017	Speech SeparationTranslation	CodeCode Available
Deep Recurrent NMF for Speech Separation by Unfolding Iterative Thresholding	Sep 21, 2017	Speech Separation	CodeCode Available
Using Optimal Ratio Mask as Training Target for Supervised Speech Separation	Sep 4, 2017	Speech Separation	—Unverified
Supervised Speech Separation Based on Deep Learning: An Overview	Aug 24, 2017	Deep LearningSpeaker Separation	—Unverified
Progressive Joint Modeling in Unsupervised Single-channel Overlapped Speech Recognition	Jul 21, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Single-Channel Multi-talker Speech Recognition with Permutation Invariant Training	Jul 19, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker-independent Speech Separation with Deep Attractor Network	Jul 12, 2017	Deep LearningSpeech Separation	—Unverified
Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks	Mar 18, 2017	ClusteringDeep Clustering	CodeCode Available
Deep attractor network for single-microphone speaker separation	Nov 27, 2016	Speaker SeparationSpeech Separation	CodeCode Available
Deep Clustering and Conventional Networks for Music Separation: Stronger Together	Nov 18, 2016	ClusteringDeep Clustering	—Unverified
Monaural Multi-Talker Speech Recognition using Factorial Speech Processing Models	Oct 5, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L	SI-SDRi	25.1	—	Unverified
2	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified
10	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified