Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 359 papers

Title	Date	Tasks	Status
DualSep: A Light-weight dual-encoder convolutional recurrent network for real-time in-car speech separation	Sep 13, 2024	CPUSpeech Separation	—Unverified
LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization	Sep 1, 2024	speaker-diarizationSpeaker Diarization	—Unverified
Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation	Aug 28, 2024	Speech Separation	—Unverified
Robustness of Speech Separation Models for Similar-pitch Speakers	Jul 22, 2024	speech-recognitionSpeech Recognition	—Unverified
TalTech-IRIT-LIS Speaker and Language Diarization Systems for DISPLACE 2024	Jul 17, 2024	speaker-diarizationSpeaker Diarization	—Unverified
Knowledge boosting during low-latency inference	Jul 9, 2024	Speech Separation	CodeCode Available
Audio-Visual Approach For Multimodal Concurrent Speaker Detection	Jul 1, 2024	Multimodal Deep Learningspeaker-diarization	—Unverified
Enhanced Deep Speech Separation in Clustered Ad Hoc Distributed Microphone Environments	Jun 14, 2024	Deep LearningSpeech Separation	—Unverified
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition	Jun 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Representation Loss Between Timed Text and Audio for Regularized Speech Separation	Jun 12, 2024	Language ModelingLanguage Modelling	—Unverified
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning	May 30, 2024	Speech Separation	—Unverified
Cross-Talk Reduction	May 30, 2024	Speech Separation	—Unverified
Robust Active Speaker Detection in Noisy Environments	Mar 27, 2024	Active Speaker DetectionSpeech Separation	—Unverified
Probing Self-supervised Learning Models with Target Speech Extraction	Feb 17, 2024	Self-Supervised LearningSpeaker Identification	—Unverified
Mixture to Mixture: Leveraging Close-talk Mixtures as Weak-supervision for Speech Separation	Feb 14, 2024	Speaker SeparationSpeech Separation	—Unverified
Boosting Unknown-number Speaker Separation with Transformer Decoder-based Attractor	Jan 23, 2024	DecoderSpeaker Separation	—Unverified
Resource-constrained stereo singing voice cancellation	Jan 22, 2024	Music Source SeparationSpeech Separation	—Unverified
Multi-Input Multi-Output Target-Speaker Voice Activity Detection For Unified, Flexible, and Robust Audio-Visual Speaker Diarization	Jan 16, 2024	Action DetectionActivity Detection	—Unverified
Hyperbolic Distance-Based Speech Separation	Jan 7, 2024	Speech Separation	—Unverified
Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments	Jan 7, 2024	Action DetectionActivity Detection	—Unverified
Improving Label Assignments Learning by Dynamic Sample Dropout Combined with Layer-wise Optimization in Speech Separation	Nov 20, 2023	Speech Separation	—Unverified
Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model	Oct 30, 2023	Speech Separation	—Unverified
Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios	Oct 16, 2023	Speech EnhancementSpeech Separation	—Unverified
A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction	Oct 12, 2023	DenoisingSpeech Enhancement	—Unverified
GASS: Generalizing Audio Source Separation with Large-scale Data	Sep 29, 2023	Audio Source SeparationSpeech Separation	—Unverified
Meeting Recognition with Continuous Speech Separation and Transcription-Supported Diarization	Sep 28, 2023	SentenceSpeech Separation	—Unverified
SPGM: Prioritizing Local Features for enhanced speech separation performance	Sep 22, 2023	Speech Separation	CodeCode Available
Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition	Aug 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Deep Attractor Network by BGRU and GMM for Speech Separation	Aug 7, 2023	Speech Separation	—Unverified
Monaural Multi-Speaker Speech Separation Using Efficient Transformer Model	Jul 29, 2023	Computational EfficiencySpeech Separation	—Unverified
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation	Jul 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition	Jul 6, 2023	Speech DereverberationSpeech Enhancement	—Unverified
Enhanced Neural Beamformer with Spatial Information for Target Speech Extraction	Jun 28, 2023	Dimensionality ReductionSpeech Extraction	—Unverified
Mixture Encoder for Joint Speech Separation and Recognition	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement	Jun 15, 2023	Speech EnhancementSpeech Separation	—Unverified
An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention	Jun 9, 2023	Computational EfficiencyDecoder	—Unverified
UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures	May 31, 2023	Speaker SeparationSpeech Separation	—Unverified
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings	May 29, 2023	Clusteringspeaker-diarization	—Unverified
Locate and Beamform: Two-dimensional Locating All-neural Beamformer for Multi-channel Speech Separation	May 18, 2023	AllSpeech Separation	—Unverified
Speech Separation based on Contrastive Learning and Deep Modularization	May 18, 2023	Contrastive LearningSelf-Supervised Learning	—Unverified
Diffusion-based Signal Refiner for Speech Separation	May 10, 2023	DenoisingSpeech Enhancement	—Unverified
AudioSlots: A slot-centric generative model for audio separation	May 9, 2023	blind source separationDecoder	—Unverified
Deep Learning for Joint Acoustic Echo and Acoustic Howling Suppression in Hybrid Meetings	May 2, 2023	Speech Separation	—Unverified
Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters	Apr 24, 2023	Speech Separation	—Unverified
On Data Sampling Strategies for Training Neural Network Speech Separation Models	Apr 14, 2023	Speech Separation	—Unverified
End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations	Mar 21, 2023	Action DetectionActivity Detection	—Unverified
Towards Real-Time Single-Channel Speech Separation in Noisy and Reverberant Environments	Mar 14, 2023	DecoderSpeech Separation	—Unverified
Learning-based Robust Speaker Counting and Separation with the Aid of Spatial Coherence	Mar 13, 2023	Speaker SeparationSpeech Separation	—Unverified
Online Binaural Speech Separation of Moving Speakers With a Wavesplit Network	Mar 13, 2023	Online ClusteringSpeaker Separation	—Unverified

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified