Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 982 papers

Title	Date	Tasks	Status	Hype
Metis: A Foundation Speech Generation Model with Masked Generative Pre-training	Feb 5, 2025	Self-Supervised LearningSpeech Enhancement	CodeCode Available	9
Hybrid Transformers for Music Source Separation	Nov 15, 2022	Music Source SeparationSpeech Enhancement	CodeCode Available	5
TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch	Oct 27, 2023	Self-Supervised LearningSpeech Enhancement	CodeCode Available	4
DeepFilterNet2: Towards Real-Time Speech Enhancement on Embedded Devices for Full-Band Audio	May 11, 2022	CPUData Augmentation	CodeCode Available	4
Deep Multi-Frame Filtering for Hearing Aids	May 14, 2023	Speech Enhancement	CodeCode Available	4
DeepFilterNet: Perceptually Motivated Real-Time Speech Enhancement	May 14, 2023	CPUSpeech Enhancement	CodeCode Available	4
Real-Time Packet Loss Concealment With Mixed Generative and Predictive Model	May 11, 2022	Packet Loss ConcealmentSpeech Enhancement	CodeCode Available	3
SoundStream: An End-to-End Neural Audio Codec	Jul 7, 2021	CPUDecoder	CodeCode Available	3
An Investigation of Incorporating Mamba for Speech Enhancement	May 10, 2024	MambaSpeech Enhancement	CodeCode Available	3
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios	Oct 2, 2024	Speech EnhancementSpeech Separation	CodeCode Available	3
Apollo: Band-sequence Modeling for High-Quality Audio Restoration	Sep 13, 2024	Computational EfficiencySpeech Enhancement	CodeCode Available	3
Separate Anything You Describe	Aug 9, 2023	Audio Source SeparationNatural Language Queries	CodeCode Available	3
VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration	Apr 12, 2022	Speech DenoisingSpeech Enhancement	CodeCode Available	3
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation	Sep 20, 2018	Multi-task Audio Source SeperationMusic Source Separation	CodeCode Available	3
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation	Jun 10, 2024	Speech Enhancement	CodeCode Available	3
DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering	Oct 11, 2021	Speech Enhancement	CodeCode Available	2
TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement	Aug 6, 2024	Speech EnhancementSpeech Separation	CodeCode Available	2
Towards Ultra-Low-Power Neuromorphic Speech Enhancement with Spiking-FullSubNet	Oct 7, 2024	DenoisingSpeech Denoising	CodeCode Available	2
Speech Denoising in the Waveform Domain with Self-Attention	Feb 15, 2022	DecoderDenoising	CodeCode Available	2
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement	Sep 22, 2022	Audio Super-ResolutionAutomatic Speech Recognition	CodeCode Available	2
StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation	Dec 22, 2022	Speech DereverberationSpeech Enhancement	CodeCode Available	2
Training-Free Multi-Step Audio Source Separation	May 26, 2025	Audio Source SeparationDenoising	CodeCode Available	2
Conditional Diffusion Probabilistic Model for Speech Enhancement	Feb 10, 2022	modelSpeech Enhancement	CodeCode Available	2
CleanMel: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR	Feb 27, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
CMGAN: Conformer-based Metric GAN for Speech Enhancement	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization	May 6, 2025	Active Speaker DetectionAudio-Visual Speech Recognition	CodeCode Available	2
Real Time Speech Enhancement in the Waveform Domain	Jun 23, 2020	CPUData Augmentation	CodeCode Available	2
MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra	May 23, 2023	DecoderDenoising	CodeCode Available	2
SEGAN: Speech Enhancement Generative Adversarial Network	Mar 28, 2017	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available	2
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement	Dec 21, 2024	Mamba	CodeCode Available	2
LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement	Mar 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement	Jul 1, 2025	Automatic Speech RecognitionMamba	CodeCode Available	2
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech	Feb 26, 2024	QuantizationSpeech Enhancement	CodeCode Available	2
FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for Speech Enhancement	Mar 23, 2022	Speech Enhancement	CodeCode Available	2
ICASSP 2022 Acoustic Echo Cancellation Challenge	Feb 27, 2022	Acoustic echo cancellationSpeech Enhancement	CodeCode Available	2
FlowSE: Efficient and High-Quality Speech Enhancement via Flow Matching	May 26, 2025	QuantizationSpeech Enhancement	CodeCode Available	2
FSPEN: AN ULTRA-LIGHTWEIGHT NETWORK FOR REAL TIME SPEECH ENAHNCMENT	Apr 15, 2024	Speech Enhancement	CodeCode Available	2
ICASSP 2023 Acoustic Echo Cancellation Challenge	Sep 22, 2023	Acoustic echo cancellationSpeech Enhancement	CodeCode Available	2
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT	Oct 7, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	2
LiSenNet: Lightweight Sub-band and Dual-Path Modeling for Real-Time Speech Enhancement	Sep 20, 2024	Speech Enhancement	CodeCode Available	2
A Lightweight Hybrid Dual Channel Speech Enhancement System under Low-SNR Conditions	May 26, 2025	Speech Enhancement	CodeCode Available	2
Mamba in Speech: Towards an Alternative to Self-Attention	May 21, 2024	MambaSpeech Enhancement	CodeCode Available	2
Explicit Estimation of Magnitude and Phase Spectra in Parallel for High-Quality Speech Enhancement	Aug 17, 2023	Bandwidth ExtensionDecoder	CodeCode Available	2
Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses	Feb 3, 2021	DecoderSpeech Denoising	CodeCode Available	2
Proximal Policy Optimization Algorithms	Jul 20, 2017	Continuous ControlDota 2	CodeCode Available	2
Fast FullSubNet: Accelerate Full-band and Sub-band Fusion Model for Single-channel Speech Enhancement	Dec 18, 2022	Computational EfficiencySpeech Enhancement	CodeCode Available	2
Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments	Jul 15, 2022	blind source separationSpeech Enhancement	CodeCode Available	2
Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders	Jun 13, 2025	Speech Enhancement	CodeCode Available	2
FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching	Jan 9, 2025	Audio Super-ResolutionComputational Efficiency	CodeCode Available	2
IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS	Sep 9, 2024	DenoisingSpeech Enhancement	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified