Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 982 papers

Title	Date	Tasks	Status	Hype
Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses	Feb 3, 2021	DecoderSpeech Denoising	CodeCode Available	2
Real Time Speech Enhancement in the Waveform Domain	Jun 23, 2020	CPUData Augmentation	CodeCode Available	2
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking	Oct 11, 2018	Speaker RecognitionSpeaker Separation	CodeCode Available	2
Proximal Policy Optimization Algorithms	Jul 20, 2017	Continuous ControlDota 2	CodeCode Available	2
SEGAN: Speech Enhancement Generative Adversarial Network	Mar 28, 2017	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available	2
Robust One-step Speech Enhancement via Consistency Distillation	Jul 8, 2025	Speech Enhancement	CodeCode Available	1
Mel-McNet: A Mel-Scale Framework for Online Multichannel Speech Enhancement	May 26, 2025	Speech Enhancement	CodeCode Available	1
HiFi-Stream: Streaming Speech Enhancement with Generative Adversarial Networks	Mar 21, 2025	Speech Enhancement	CodeCode Available	1
FNSE-SBGAN: Far-field Speech Enhancement with Schrodinger Bridge and Generative Adversarial Networks	Mar 17, 2025	Speech Enhancement	CodeCode Available	1
PrimeK-Net: Multi-scale Spectral Learning via Group Prime-Kernel Convolutional Neural Networks for Single Channel Speech Enhancement	Feb 27, 2025	Computational EfficiencySpeech Enhancement	CodeCode Available	1
Adaptive Convolution for CNN-based Speech Enhancement Models	Feb 20, 2025	DecoderSpeech Enhancement	CodeCode Available	1
SEF-PNet: Speaker Encoder-Free Personalized Speech Enhancement with Local and Global Contexts Aggregation	Jan 20, 2025	Speaker VerificationSpeech Enhancement	CodeCode Available	1
AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder	Jan 9, 2025	Pitch ClassificationPitch control	CodeCode Available	1
Source Separation & Automatic Transcription for Music	Dec 9, 2024	Music TranscriptionSpeech Enhancement	CodeCode Available	1
Explainable DNN-based Beamformer with Postfilter	Nov 16, 2024	Speech Enhancement	CodeCode Available	1
A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation	Sep 19, 2024	Speech Enhancement	CodeCode Available	1
LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement	Sep 3, 2024	DecoderSpeech Enhancement	CodeCode Available	1
Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement	Aug 30, 2024	DecoderSpeech Enhancement	CodeCode Available	1
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors	Jul 16, 2024	Automatic Phoneme RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Exploiting Foundation Models and Speech Enhancement for Parkinson's Disease Detection from Speech in Real-World Operative Conditions	Jun 23, 2024	Audio ClassificationParkinson Detection from Speech	CodeCode Available	1
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling	Jun 17, 2024	Speaker SeparationSpeech Enhancement	CodeCode Available	1
Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement	Jun 6, 2024	DiversitySpeech Enhancement	CodeCode Available	1
Once more Diarization: Improving meeting transcription systems through segment-level speaker reassignment	Jun 5, 2024	AttributeSpeech Enhancement	CodeCode Available	1
A Variance-Preserving Interpolation Approach for Diffusion Models with Applications to Single Channel Speech Enhancement and Recognition	May 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Binaural Speech Enhancement Using Deep Complex Convolutional Transformer Networks	Mar 8, 2024	DecoderSpeech Enhancement	CodeCode Available	1
A Refining Underlying Information Framework for Monaural Speech Enhancement	Dec 18, 2023	Speech Enhancement	CodeCode Available	1
Investigating the Design Space of Diffusion Models for Speech Enhancement	Dec 7, 2023	Image GenerationSpeech Enhancement	CodeCode Available	1
D4AM: A General Denoising Framework for Downstream Acoustic Models	Nov 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Unsupervised speech enhancement with diffusion-based generative models	Sep 19, 2023	Speech Enhancement	CodeCode Available	1
Single and Few-step Diffusion for Generative Speech Enhancement	Sep 18, 2023	DenoisingSpeech Enhancement	CodeCode Available	1
Multi-dimensional Speech Quality Assessment in Crowdsourcing	Sep 14, 2023	Speech Enhancement	CodeCode Available	1
Diff-SV: A Unified Hierarchical Framework for Noise-Robust Speaker Verification Using Score-Based Diffusion Probabilistic Models	Sep 14, 2023	Speaker VerificationSpeech Enhancement	CodeCode Available	1
Simulating room transfer functions between transducers mounted on audio devices using a modified image source method	Sep 7, 2023	Computational Efficiencyparameter estimation	CodeCode Available	1
DeFTAN-II: Efficient Multichannel Speech Enhancement with Subgroup Processing	Aug 30, 2023	Speech Enhancement	CodeCode Available	1
MetricGAN-OKD: Multi-Metric Optimization of MetricGAN via Online Knowledge Distillation for Speech Enhancement	Jul 24, 2023	Knowledge DistillationSpeech Enhancement	CodeCode Available	1
Noise-aware Speech Enhancement using Diffusion Probabilistic Model	Jul 16, 2023	Denoisingmodel	CodeCode Available	1
Disentanglement in a GAN for Unconditional Speech Synthesis	Jul 4, 2023	DisentanglementGenerative Adversarial Network	CodeCode Available	1
Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement	Jun 14, 2023	Speech Enhancement	CodeCode Available	1
A Mask Free Neural Network for Monaural Speech Enhancement	Jun 7, 2023	Speech Enhancement	CodeCode Available	1
A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models	Jun 1, 2023	Data AugmentationSpeech Enhancement	CodeCode Available	1
Diffusion-Based Mel-Spectrogram Enhancement for Personalized Speech Synthesis with Found Data	May 18, 2023	Speech EnhancementSpeech Synthesis	CodeCode Available	1
BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions	May 17, 2023	EEGSpeech Enhancement	CodeCode Available	1
Integrating Uncertainty into Neural Network-based Speech Enhancement	May 15, 2023	Speech Enhancement	CodeCode Available	1
Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations	Mar 3, 2023	Speech DenoisingSpeech Enhancement	CodeCode Available	1
Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement	Feb 28, 2023	Speech Enhancement	CodeCode Available	1
Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition	Feb 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Unifying Speech Enhancement and Separation with Gradient Modulation for End-to-End Noise-Robust Speech Separation	Feb 22, 2023	Multi-Task LearningSpeech Enhancement	CodeCode Available	1
TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement	Feb 16, 2023	Speaker RecognitionSpeech Enhancement	CodeCode Available	1
PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement	Feb 16, 2023	Speech EnhancementTime Series	CodeCode Available	1
DeFT-AN: Dense Frequency-Time Attentive Network for Multichannel Speech Enhancement	Dec 15, 2022	DenoisingSpeech Dereverberation	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified