Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 982 papers

Title	Date	Tasks	Status	Hype
Linguistic Knowledge Transfer Learning for Speech Enhancement	Mar 10, 2025	Speech EnhancementTransfer Learning	—Unverified	0
ProSE: Diffusion Priors for Speech Enhancement	Mar 9, 2025	Denoisingregression	—Unverified	0
UL-UNAS: Ultra-Lightweight U-Nets for Real-Time Speech Enhancement via Network Architecture Search	Mar 1, 2025	Neural Architecture SearchSpeech Enhancement	CodeCode Available	2
LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement	Mar 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
CleanMel: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR	Feb 27, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
PrimeK-Net: Multi-scale Spectral Learning via Group Prime-Kernel Convolutional Neural Networks for Single Channel Speech Enhancement	Feb 27, 2025	Computational EfficiencySpeech Enhancement	CodeCode Available	1
Enhancing Speech Quality through the Integration of BGRU and Transformer Architectures	Feb 25, 2025	Speech Enhancement	—Unverified	0
Speech Enhancement Using Continuous Embeddings of Neural Audio Codec	Feb 22, 2025	QuantizationSpeech Enhancement	—Unverified	0
Adaptive Convolution for CNN-based Speech Enhancement Models	Feb 20, 2025	DecoderSpeech Enhancement	CodeCode Available	1
LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention	Feb 17, 2025	Speech Enhancement	—Unverified	0
TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement	Feb 17, 2025	Speech Enhancement	—Unverified	0
Microphone Array Geometry Independent Multi-Talker Distant ASR: NTT System for the DASR Task of the CHiME-8 Challenge	Feb 14, 2025	Action DetectionActivity Detection	—Unverified	0
Advances in Microphone Array Processing and Multichannel Speech Enhancement	Feb 13, 2025	Speech Enhancement	—Unverified	0
GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Metis: A Foundation Speech Generation Model with Masked Generative Pre-training	Feb 5, 2025	Self-Supervised LearningSpeech Enhancement	CodeCode Available	9
Learning-based A Posteriori Speech Presence Probability Estimation and Applications	Jan 23, 2025	Speech Enhancementspeech-recognition	—Unverified	0
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement	Jan 23, 2025	Audio Signal ProcessingSpeech Enhancement	—Unverified	0
Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement	Jan 23, 2025	Data AugmentationSpeech Enhancement	—Unverified	0
UP-Cycle-SENet: Unpaired Phase-aware Speech Enhancement Using Deep Complex Cycle Adversarial Networks	Jan 22, 2025	Speech Enhancement	—Unverified	0
Let SSMs be ConvNets: State-space Modeling with Optimal Tensor Contractions	Jan 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Speech Enhancement with Overlapped-Frame Information Fusion and Causal Self-Attention	Jan 21, 2025	Speech Enhancement	CodeCode Available	0
SEF-PNet: Speaker Encoder-Free Personalized Speech Enhancement with Local and Global Contexts Aggregation	Jan 20, 2025	Speaker VerificationSpeech Enhancement	CodeCode Available	1
DFingerNet: Noise-Adaptive Speech Enhancement for Hearing Aids	Jan 17, 2025	DenoisingSpeech Enhancement	—Unverified	0
Microphone Array Signal Processing and Deep Learning for Speech Enhancement	Jan 13, 2025	Deep LearningDiversity	—Unverified	0
Multi-modal Speech Enhancement with Limited Electromyography Channels	Jan 11, 2025	Electromyography (EMG)Speech Enhancement	—Unverified	0
Estimation and Restoration of Unknown Nonlinear Distortion using Diffusion	Jan 10, 2025	Audio Effects ModelingQuantization	CodeCode Available	0
xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement	Jan 10, 2025	MambaSpeech Enhancement	CodeCode Available	2
AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder	Jan 9, 2025	Pitch ClassificationPitch control	CodeCode Available	1
FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching	Jan 9, 2025	Audio Super-ResolutionComputational Efficiency	CodeCode Available	2
Artifact-free Sound Quality in DNN-based Closed-loop Systems for Audio Processing	Jan 7, 2025	Speech Enhancement	—Unverified	0
Causal Speech Enhancement with Predicting Semantics based on Quantized Self-supervised Learning Features	Dec 26, 2024	Multi-Task LearningQuantization	—Unverified	0
Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario	Dec 24, 2024	Speech Enhancement	—Unverified	0
From KAN to GR-KAN: Advancing Speech Enhancement with KAN-Based Methodology	Dec 23, 2024	Kolmogorov-Arnold NetworksSpeech Enhancement	—Unverified	0
Time-Graph Frequency Representation with Singular Value Decomposition for Neural Speech Enhancement	Dec 22, 2024	Speech Enhancement	CodeCode Available	0
Scalable Speech Enhancement with Dynamic Channel Pruning	Dec 22, 2024	Speech Enhancement	—Unverified	0
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement	Dec 21, 2024	Mamba	CodeCode Available	2
Scale This, Not That: Investigating Key Dataset Attributes for Efficient Speech Enhancement Scaling	Dec 19, 2024	AttributeSpeech Enhancement	—Unverified	0
Investigating the Effects of Diffusion-based Conditional Generative Speech Models Used for Speech Enhancement on Dysarthric Speech	Dec 18, 2024	Speech Enhancement	—Unverified	0
Evaluating the Impact of Discriminative and Generative E2E Speech Enhancement Models on Syllable Stress Preservation	Dec 11, 2024	Speech Enhancement	—Unverified	0
TouchTTS: An Embarrassingly Simple TTS Framework that Everyone Can Touch	Dec 11, 2024	Denoisingspeaker-diarization	—Unverified	0
Source Separation & Automatic Transcription for Music	Dec 9, 2024	Music TranscriptionSpeech Enhancement	CodeCode Available	1
SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation	Nov 27, 2024	Question AnsweringSpeech Enhancement	—Unverified	0
Towards Advanced Speech Signal Processing: A Statistical Perspective on Convolution-Based Architectures and its Applications	Nov 20, 2024	Emotion RecognitionSpeaker Identification	—Unverified	0
GhostRNN: Reducing State Redundancy in RNN with Cheap Operations	Nov 20, 2024	Keyword SpottingSpeech Enhancement	—Unverified	0
A Neural Denoising Vocoder for Clean Waveform Generation from Noisy Mel-Spectrogram based on Amplitude and Phase Predictions	Nov 19, 2024	DenoisingSpeech Enhancement	—Unverified	0
Explainable DNN-based Beamformer with Postfilter	Nov 16, 2024	Speech Enhancement	CodeCode Available	1
SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model	Nov 12, 2024	MambaSpeech Enhancement	—Unverified	0
DCF-DS: Deep Cascade Fusion of Diarization and Separation for Speech Recognition under Realistic Single-Channel Conditions	Nov 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Selective State Space Model for Monaural Speech Enhancement	Nov 9, 2024	MambaSpeech Enhancement	—Unverified	0
Modulating State Space Model with SlowFast Framework for Compute-Efficient Ultra Low-Latency Speech Enhancement	Nov 4, 2024	Speech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 2 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified