Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–982 of 982 papers

Title	Date	Tasks	Status
What does a network layer hear? Analyzing hidden representations of end-to-end ASR through speech synthesis	Nov 4, 2019	Speaker VerificationSpeech Enhancement	CodeCode Available
Whispered-to-voiced Alaryngeal Speech Conversion with Generative Adversarial Networks	Aug 31, 2018	Speech EnhancementSpeech Recognition	CodeCode Available
End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization	Jan 26, 2019	DenoisingSpeech Enhancement	CodeCode Available
DEEP COMPLEX-VALUED NEURAL BEAMFORMERS	May 1, 2019	Speech Enhancement	CodeCode Available
Contaminated speech training methods for robust DNN-HMM distant speech recognition	Oct 10, 2017	Distant Speech RecognitionSpeech Enhancement	CodeCode Available
Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation	Sep 3, 2024	Speech Enhancement	CodeCode Available
Investigating Generative Adversarial Networks based Speech Dereverberation for Robust Speech Recognition	Mar 27, 2018	Robust Speech RecognitionSpeech Dereverberation	CodeCode Available
Improved Speech Enhancement with the Wave-U-Net	Nov 27, 2018	Audio Source SeparationSpeech Enhancement	CodeCode Available
Complex Recurrent Variational Autoencoder with Application to Speech Enhancement	Apr 5, 2022	Speech Enhancement	CodeCode Available
Unpaired Speech Enhancement by Acoustic and Adversarial Supervision for Speech Recognition	Nov 6, 2018	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available
BLOOM-Net: Blockwise Optimization for Masking Networks Toward Scalable and Efficient Speech Enhancement	Nov 17, 2021	Speech Enhancement	CodeCode Available
Wideband Relative Transfer Function (RTF) Estimation Exploiting Frequency Correlations	Jul 19, 2024	Fault DetectionSpeech Enhancement	CodeCode Available
A Fully Convolutional Neural Network for Speech Enhancement	Sep 22, 2016	DecoderSpeech Enhancement	CodeCode Available
The Second DIHARD Diarization Challenge: Dataset, task, and baselines	Jun 18, 2019	Action DetectionActivity Detection	CodeCode Available
Speech Denoising Convolutional Neural Network trained with Deep Feature Losses.	Jun 27, 2018	Audio TaggingDenoising	CodeCode Available
Masks Fusion with Multi-Target Learning For Speech Enhancement	Sep 23, 2021	Speech Enhancement	CodeCode Available
Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting	Mar 27, 2025	Self-Supervised LearningSpeech Enhancement	CodeCode Available
Let SSMs be ConvNets: State-space Modeling with Optimal Tensor Contractions	Jan 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Speech-enhanced and Noise-aware Networks for Robust Speech Recognition	Mar 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding	Aug 13, 2024	DenoisingSelf-Supervised Learning	CodeCode Available
Supervised and Unsupervised Speech Enhancement Using Nonnegative Matrix Factorization	Sep 15, 2017	DenoisingSpeech Denoising	CodeCode Available
A variance modeling framework based on variational autoencoders for speech enhancement	Feb 5, 2019	Speech Enhancement	CodeCode Available
An Investigation into the Effectiveness of Enhancement in ASR Training and Test for CHiME-5 Dinner Party Transcription	Sep 26, 2019	Speech Enhancement	CodeCode Available
Speech Enhancement based on Denoising Autoencoder with Multi-branched Encoders	Jan 6, 2020	DecoderDenoising	CodeCode Available
Speech Enhancement Based on Reducing the Detail Portion of Speech Spectrograms in Modulation Domain via Discrete Wavelet Transform	Nov 8, 2018	Speech Enhancement	CodeCode Available
Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need	May 29, 2025	Allimage-classification	CodeCode Available
Boosted Locality Sensitive Hashing: Discriminative Binary Codes for Source Separation	Feb 14, 2020	Binary ClassificationDenoising	CodeCode Available
Speech Enhancement for Virtual Meetings on Cellular Networks	Feb 2, 2023	Deep LearningSpeech Enhancement	CodeCode Available
Time-domain Speech Enhancement with Generative Adversarial Learning	Mar 30, 2021	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available
How to train your ears: Auditory-model emulation for large-dynamic-range inputs and mild-to-severe hearing losses	Mar 15, 2024	Speech Enhancement	CodeCode Available
Time-Graph Frequency Representation with Singular Value Decomposition for Neural Speech Enhancement	Dec 22, 2024	Speech Enhancement	CodeCode Available
Aura: Privacy-preserving Augmentation to Improve Test Set Diversity in Speech Enhancement	Oct 8, 2021	DiversityPrivacy Preserving	CodeCode Available

Show:10 25 50

← PrevPage 20 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified