Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 982 papers

Title	Date	Tasks	Status	Hype
AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection	Jan 5, 2019	Active Speaker DetectionAudio-Visual Active Speaker Detection	CodeCode Available	1
Perceptual Losses for Real-Time Style Transfer and Super-Resolution	Mar 27, 2016	Image Super-ResolutionNuclear Segmentation	CodeCode Available	1
Autoregressive Speech Enhancement via Acoustic Tokens	Jul 17, 2025	Speech Enhancement	—Unverified	0
P.808 Multilingual Speech Enhancement Testing: Approach and Results of URGENT 2025 Challenge	Jul 15, 2025	Speech Enhancementtext-to-speech	—Unverified	0
Speech Quality Assessment Model Based on Mixture of Experts: System-Level Performance Enhancement and Utterance-Level Challenge Analysis	Jul 8, 2025	Data AugmentationMixture-of-Experts	—Unverified	0
Frequency-Weighted Training Losses for Phoneme-Level DNN-based Speech Enhancement	Jun 23, 2025	Speech Enhancement	—Unverified	0
EDNet: A Distortion-Agnostic Speech Enhancement Framework with Gating Mamba Mechanism and Phase Shift-Invariant Training	Jun 19, 2025	Bandwidth ExtensionDenoising	—Unverified	0
A Comparative Evaluation of Deep Learning Models for Speech Enhancement in Real-World Noisy Environments	Jun 17, 2025	DenoisingSpeaker Recognition	—Unverified	0
Exploring Length Generalization For Transformer-based Speech Enhancement	Jun 7, 2025	Speech Enhancement	—Unverified	0
French Listening Tests for the Assessment of Intelligibility, Quality, and Identity of Body-Conducted Speech Enhancement	Jun 4, 2025	Bandwidth ExtensionSpeaker Identification	—Unverified	0
Diffusion Buffer: Online Diffusion-based Speech Enhancement with Sub-Second Latency	Jun 3, 2025	GPUSpeech Enhancement	—Unverified	0
Lessons Learned from the URGENT 2024 Speech Enhancement Challenge	Jun 2, 2025	Speech Enhancement	CodeCode Available	0
A Two-Stage Hierarchical Deep Filtering Framework for Real-Time Speech Enhancement	Jun 1, 2025	Speech Enhancement	—Unverified	0
A Composite Predictive-Generative Approach to Monaural Universal Speech Enhancement	May 30, 2025	DenoisingSpeech Enhancement	—Unverified	0
DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration	May 29, 2025	Speech Enhancement	—Unverified	0
Interspeech 2025 URGENT Speech Enhancement Challenge	May 29, 2025	DiversitySpeech Enhancement	—Unverified	0
Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need	May 29, 2025	Allimage-classification	CodeCode Available	0
ARiSE: Auto-Regressive Multi-Channel Speech Enhancement	May 28, 2025	Speech Enhancement	—Unverified	0
Study of Lightweight Transformer Architectures for Single-Channel Speech Enhancement	May 27, 2025	Speech Enhancement	—Unverified	0
Model as Loss: A Self-Consistent Training Paradigm	May 27, 2025	DecoderSpeech Enhancement	—Unverified	0
Stack Less, Repeat More: A Block Reusing Approach for Progressive Speech Enhancement	May 26, 2025	DecoderSpeech Enhancement	—Unverified	0
TS-URGENet: A Three-stage Universal Robust and Generalizable Speech Enhancement Network	May 24, 2025	Speech Enhancement	—Unverified	0
Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation	May 22, 2025	DenoisingMamba	—Unverified	0
Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising	May 20, 2025	DecoderDenoising	—Unverified	0
A Semantic Information-based Hierarchical Speech Enhancement Method Using Factorized Codec and Diffusion Model	May 20, 2025	Speech Enhancement	—Unverified	0
MDDM: A Multi-view Discriminative Enhanced Diffusion-based Model for Speech Enhancement	May 19, 2025	Speech Enhancement	—Unverified	0
RoVo: Robust Voice Protection Against Unauthorized Speech Synthesis with Embedding-Level Perturbations	May 19, 2025	Speaker VerificationSpeech Enhancement	—Unverified	0
Unified Architecture and Unsupervised Speech Disentanglement for Speaker Embedding-Free Enrollment in Personalized Speech Enhancement	May 18, 2025	DisentanglementSpeech Enhancement	—Unverified	0
A Survey of Deep Learning for Complex Speech Spectrograms	May 13, 2025	Deep LearningSpeech Enhancement	—Unverified	0
Normalize Everything: A Preconditioned Magnitude-Preserving Architecture for Diffusion-Based Speech Enhancement	May 8, 2025	Image GenerationSpeech Enhancement	—Unverified	0
Robust Speech Recognition with Schrödinger Bridge-Based Speech Enhancement	May 7, 2025	Robust Speech RecognitionSpeech Enhancement	—Unverified	0
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios	May 2, 2025	Speech Enhancement	—Unverified	0
Predicting speech intelligibility in older adults using the Gammachirp Envelope Similarity Index, GESI	Apr 20, 2025	Speech Enhancement	—Unverified	0
DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers	Apr 13, 2025	HallucinationSpeech Enhancement	—Unverified	0
Spatial-Filter-Bank-Based Neural Method for Multichannel Speech Enhancement	Apr 2, 2025	Speech Enhancement	—Unverified	0
Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting	Mar 27, 2025	Self-Supervised LearningSpeech Enhancement	CodeCode Available	0
A Low-Power Streaming Speech Enhancement Accelerator For Edge Devices	Mar 27, 2025	Model CompressionSpeech Enhancement	—Unverified	0
Joint Spectrogram Separation and TDOA Estimation using Optimal Transport	Mar 24, 2025	blind source separationSpeech Enhancement	—Unverified	0
A Speech Production Model for Radar: Connecting Speech Acoustics with Radar-Measured Vibrations	Mar 19, 2025	Speech Enhancement	—Unverified	0
Room Impulse Response Estimation through Optimal Mass Transport Barycenters	Mar 18, 2025	Speech Enhancement	CodeCode Available	0
Variational Autoencoder for Personalized Pathological Speech Enhancement	Mar 18, 2025	Speech Enhancement	—Unverified	0
Linguistic Knowledge Transfer Learning for Speech Enhancement	Mar 10, 2025	Speech EnhancementTransfer Learning	—Unverified	0
ProSE: Diffusion Priors for Speech Enhancement	Mar 9, 2025	Denoisingregression	—Unverified	0
Enhancing Speech Quality through the Integration of BGRU and Transformer Architectures	Feb 25, 2025	Speech Enhancement	—Unverified	0
Speech Enhancement Using Continuous Embeddings of Neural Audio Codec	Feb 22, 2025	QuantizationSpeech Enhancement	—Unverified	0
LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention	Feb 17, 2025	Speech Enhancement	—Unverified	0
TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement	Feb 17, 2025	Speech Enhancement	—Unverified	0
Microphone Array Geometry Independent Multi-Talker Distant ASR: NTT System for the DASR Task of the CHiME-8 Challenge	Feb 14, 2025	Action DetectionActivity Detection	—Unverified	0
Advances in Microphone Array Processing and Multichannel Speech Enhancement	Feb 13, 2025	Speech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 5 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified