Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 982 papers

Title	Date	Tasks	Status	Hype
IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS	Sep 9, 2024	DenoisingSpeech Enhancement	CodeCode Available	2
Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses	Feb 3, 2021	DecoderSpeech Denoising	CodeCode Available	2
Mamba in Speech: Towards an Alternative to Self-Attention	May 21, 2024	MambaSpeech Enhancement	CodeCode Available	2
Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments	Jul 15, 2022	blind source separationSpeech Enhancement	CodeCode Available	2
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking	Oct 11, 2018	Speaker RecognitionSpeaker Separation	CodeCode Available	2
Fast Multichannel Source Separation Based on Jointly Diagonalizable Spatial Covariance Matrices	Mar 8, 2019	Speech Enhancement	CodeCode Available	1
Exploring Deep Hybrid Tensor-to-Vector Network Architectures for Regression Based Speech Enhancement	Jul 25, 2020	regressionSpeech Enhancement	CodeCode Available	1
Exploiting Foundation Models and Speech Enhancement for Parkinson's Disease Detection from Speech in Real-World Operative Conditions	Jun 23, 2024	Audio ClassificationParkinson Detection from Speech	CodeCode Available	1
FaSNet: Low-latency Adaptive Beamforming for Multi-microphone Audio Processing	Sep 29, 2019	Speech Enhancementspeech-recognition	CodeCode Available	1
AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder	Jan 9, 2025	Pitch ClassificationPitch control	CodeCode Available	1
Explainable DNN-based Beamformer with Postfilter	Nov 16, 2024	Speech Enhancement	CodeCode Available	1
Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments	Jul 9, 2021	Speech Enhancement	CodeCode Available	1
FNSE-SBGAN: Far-field Speech Enhancement with Schrodinger Bridge and Generative Adversarial Networks	Mar 17, 2025	Speech Enhancement	CodeCode Available	1
Diffusion-Based Mel-Spectrogram Enhancement for Personalized Speech Synthesis with Found Data	May 18, 2023	Speech EnhancementSpeech Synthesis	CodeCode Available	1
Disentanglement in a GAN for Unconditional Speech Synthesis	Jul 4, 2023	DisentanglementGenerative Adversarial Network	CodeCode Available	1
Diff-SV: A Unified Hierarchical Framework for Noise-Robust Speaker Verification Using Score-Based Diffusion Probabilistic Models	Sep 14, 2023	Speaker VerificationSpeech Enhancement	CodeCode Available	1
DeFTAN-II: Efficient Multichannel Speech Enhancement with Subgroup Processing	Aug 30, 2023	Speech Enhancement	CodeCode Available	1
Diffusion-based Generative Speech Source Separation	Oct 31, 2022	Speech Enhancement	CodeCode Available	1
DNN-based mask estimation for distributed speech enhancement in spatially unconstrained microphone arrays	Nov 3, 2020	DiversityNoise Estimation	CodeCode Available	1
A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models	Jun 1, 2023	Data AugmentationSpeech Enhancement	CodeCode Available	1
Deep Residual-Dense Lattice Network for Speech Enhancement	Feb 27, 2020	Speech Enhancement	CodeCode Available	1
A Modulation-Domain Loss for Neural-Network-based Real-time Speech Enhancement	Feb 15, 2021	Speaker IdentificationSpeech Denoising	CodeCode Available	1
A Causal U-net based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement	Aug 1, 2021	CPUSpeech Enhancement	CodeCode Available	1
A non-causal FFTNet architecture for speech enhancement	Jun 8, 2020	Speech Enhancement	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 40Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified