Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 359 papers

Title	Date	Tasks	Status
Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent Speech Separation	Dec 1, 2020	channel selectionDeep Learning	—Unverified
Audio-visual Speech Separation with Adversarially Disentangled Visual Representation	Nov 29, 2020	Speech Separation	—Unverified
Multi-Decoder DPRNN: High Accuracy Source Counting and Separation	Nov 24, 2020	DecoderSpeech Separation	CodeCode Available
Ultra-Lightweight Speech Separation via Group Communication	Nov 18, 2020	QuantizationSpeech Enhancement	—Unverified
WPD++: An Improved Neural Beamformer for Simultaneous Speech Separation and Dereverberation	Nov 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Block-Online Guided Source Separation	Nov 16, 2020	Speech Separation	—Unverified
Audio-visual Multi-channel Integration and Recognition of Overlapped Speech	Nov 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Surrogate Source Model Learning for Determined Source Separation	Nov 11, 2020	modelSpeech Separation	—Unverified
On End-to-end Multi-channel Time Domain Speech Separation in Reverberant Environments	Nov 11, 2020	speech-recognitionSpeech Recognition	—Unverified
ESPnet-se: end-to-end speech enhancement and separation toolkit designed for asr integration	Nov 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Integration of speech separation, diarization, and recognition for multi-speaker meetings: System description, comparison, and analysis	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speakerfilter-Pro: an improved target speaker extractor combines the time domain and frequency domain	Oct 25, 2020	Speech Separation	—Unverified
X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction Network	Oct 24, 2020	Speech Separation	—Unverified
Speech enhancement aided end-to-end multi-task learning for voice activity detection	Oct 23, 2020	Action DetectionActivity Detection	—Unverified
Towards Listening to 10 People Simultaneously: An Efficient Permutation Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm	Oct 22, 2020	Audio Source SeparationSpeech Separation	—Unverified
BERT for Joint Multichannel Speech Dereverberation with Spatial-aware Tasks	Oct 21, 2020	Speech DereverberationSpeech Enhancement	—Unverified
X-DC: Explainable Deep Clustering based on Learnable Spectrogram Templates	Sep 18, 2020	ClusteringDeep Clustering	—Unverified
An End-to-end Architecture of Online Multi-channel Speech Separation	Sep 7, 2020	speech-recognitionSpeech Recognition	—Unverified
Independent Vector Analysis via Log-Quadratically Penalized Quadratic Minimization	Aug 23, 2020	blind source separationSpeech Separation	—Unverified
Deep Variational Generative Models for Audio-visual Speech Separation	Aug 17, 2020	Speech Separation	—Unverified
ADL-MVDR: All deep learning MVDR beamformer for target speech separation	Aug 16, 2020	AllSpeech Separation	CodeCode Available
Efficient Integration of Multi-channel Information for Speaker-independent Speech Separation	Aug 11, 2020	Deep ClusteringOpen-Ended Question Answering	—Unverified
MIRNet: Learning multiple identities representations in overlapped speech	Aug 4, 2020	Rgb-T TrackingSpeaker Verification	—Unverified
CSLNSpeech: solving extended speech separation problem with the help of Chinese sign language	Jul 21, 2020	Self-Supervised LearningSpeech Separation	CodeCode Available
Progressive Tandem Learning for Pattern Recognition with Deep Spiking Neural Networks	Jul 2, 2020	Computational EfficiencyImage Reconstruction	—Unverified
Exploring the time-domain deep attractor network with two-stream architectures in a reverberant environment	Jul 1, 2020	Speech Separation	—Unverified
Sequence to Multi-Sequence Learning via Conditional Chain Mapping for Mixture Signals	Jun 25, 2020	speech-recognitionSpeech Recognition	—Unverified
Unsupervised Sound Separation Using Mixture Invariant Training	Jun 23, 2020	Domain AdaptationSpeech Enhancement	—Unverified
Multi-talker ASR for an unknown number of sources: Joint training of source counting, separation and ASR	Jun 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Identify Speakers in Cocktail Parties with End-to-End Attention	May 22, 2020	Speaker IdentificationSpeech Separation	CodeCode Available
Audio-visual Multi-channel Recognition of Overlapped Speech	May 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FaceFilter: Audio-visual speech separation using still images	May 14, 2020	Speech Separation	—Unverified
Neural Speech Separation Using Spatially Distributed Microphones	Apr 28, 2020	speech-recognitionSpeech Recognition	—Unverified
CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings	Apr 20, 2020	speaker-diarizationSpeaker Diarization	—Unverified
Simultaneous Denoising and Dereverberation Using Deep Embedding Features	Apr 6, 2020	ClusteringDeep Clustering	—Unverified
Deep Attention Fusion Feature for Speech Separation with End-to-End Post-filter Method	Mar 17, 2020	Deep AttentionSpeech Separation	—Unverified
Multi-modal Multi-channel Target Speech Separation	Mar 16, 2020	Speech Separation	—Unverified
Enhancing End-to-End Multi-channel Speech Separation via Spatial Feature Learning	Mar 9, 2020	Speech Separation	—Unverified
Wavesplit: End-to-End Speech Separation by Speaker Clustering	Feb 20, 2020	ClusteringData Augmentation	—Unverified
Spatial and spectral deep attention fusion for multi-channel speech separation using deep embedding features	Feb 5, 2020	ClusteringDeep Attention	—Unverified
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation	Jan 2, 2020	Speech Separation	—Unverified
Utterance-level Permutation Invariant Training with Latency-controlled BLSTM for Single-channel Multi-talker Speech Separation	Dec 25, 2019	Speech Separation	—Unverified
End-to-end training of time domain audio separation and recognition	Dec 18, 2019	Speaker Recognitionspeech-recognition	—Unverified
A Unified Framework for Speech Separation	Dec 17, 2019	Speech Separation	—Unverified
Advances in Online Audio-Visual Meeting Transcription	Dec 10, 2019	Sound Source Localizationspeaker-diarization	—Unverified
MITAS: A Compressed Time-Domain Audio Separation Network with Parameter Sharing	Dec 9, 2019	Speech Separation	—Unverified
Audio-Visual Target Speaker Enhancement on Multi-Talker Environment using Event-Driven Cameras	Dec 5, 2019	Optical Flow EstimationSpeech Separation	—Unverified
Improving Voice Separation by Incorporating End-to-end Speech Recognition	Nov 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Demystifying TasNet: A Dissecting Approach	Nov 20, 2019	Speech Separation	—Unverified

Show:10 25 50

← PrevPage 6 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified