Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 982 papers

Title	Date	Tasks	Status	Hype	Score
BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions	May 17, 2023	EEGSpeech Enhancement	CodeCode Available	1	5
Binaural Speech Enhancement Using Deep Complex Convolutional Transformer Networks	Mar 8, 2024	DecoderSpeech Enhancement	CodeCode Available	1	5
Exploiting Foundation Models and Speech Enhancement for Parkinson's Disease Detection from Speech in Real-World Operative Conditions	Jun 23, 2024	Audio ClassificationParkinson Detection from Speech	CodeCode Available	1	5
Fast Multichannel Source Separation Based on Jointly Diagonalizable Spatial Covariance Matrices	Mar 8, 2019	Speech Enhancement	CodeCode Available	1	5
FaSNet: Low-latency Adaptive Beamforming for Multi-microphone Audio Processing	Sep 29, 2019	Speech Enhancementspeech-recognition	CodeCode Available	1	5
An Investigation of End-to-End Models for Robust Speech Recognition	Feb 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A non-causal FFTNet architecture for speech enhancement	Jun 8, 2020	Speech Enhancement	CodeCode Available	1	5
Speech Denoising Without Clean Training Data: A Noise2Noise Approach	Apr 8, 2021	Audio DenoisingDenoising	CodeCode Available	1	5
Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement	Oct 27, 2022	DenoisingSpeech Enhancement	CodeCode Available	1	5
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling	Jun 17, 2024	Speaker SeparationSpeech Enhancement	CodeCode Available	1	5
A Variance-Preserving Interpolation Approach for Diffusion Models with Applications to Single Channel Speech Enhancement and Recognition	May 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Deep Learning Loss Function based on Auditory Power Compression for Speech Enhancement	Aug 26, 2021	Speech Enhancement	CodeCode Available	1	5
Adaptive Convolution for CNN-based Speech Enhancement Models	Feb 20, 2025	DecoderSpeech Enhancement	CodeCode Available	1	5
Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models	Nov 4, 2019	GPUMusic Source Separation	CodeCode Available	1	5
A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech	Aug 27, 2020	CPUSpeech Enhancement	CodeCode Available	1	5
Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition	Feb 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection	Jan 5, 2019	Active Speaker DetectionAudio-Visual Active Speaker Detection	CodeCode Available	1	5
Semi-Supervised Multichannel Speech Enhancement With a Deep Speech Prior	Oct 7, 2019	Speech Enhancement	CodeCode Available	1	5
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement	Mar 24, 2022	Audio GenerationBandwidth Extension	CodeCode Available	1	5
DNN-based mask estimation for distributed speech enhancement in spatially unconstrained microphone arrays	Nov 3, 2020	DiversityNoise Estimation	CodeCode Available	1	5
Dual-branch Attention-In-Attention Transformer for single-channel speech enhancement	Oct 13, 2021	Speech Enhancement	CodeCode Available	1	5
CDPAM: Contrastive learning for perceptual audio similarity	Feb 9, 2021	Contrastive LearningSpeech Enhancement	CodeCode Available	1	5
A Refining Underlying Information Framework for Monaural Speech Enhancement	Dec 18, 2023	Speech Enhancement	CodeCode Available	1	5
Disentanglement in a GAN for Unconditional Speech Synthesis	Jul 4, 2023	DisentanglementGenerative Adversarial Network	CodeCode Available	1	5
EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments	Jul 9, 2021	Speech Enhancement	CodeCode Available	1	5
Improving GANs for Speech Enhancement	Jan 15, 2020	Speech Enhancement	CodeCode Available	1	5
Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement	Oct 28, 2020	Speech Enhancement	CodeCode Available	1	5
Inference and Denoise: Causal Inference-based Neural Speech Enhancement	Nov 2, 2022	Causal InferenceSpeech Enhancement	CodeCode Available	1	5
CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application	Aug 21, 2020	Acoustic Scene ClassificationData Augmentation	CodeCode Available	1	5
CLC: Complex Linear Coding for the DNS 2020 Challenge	Jun 23, 2020	Speech Enhancement	CodeCode Available	1	5
Instantaneous PSD Estimation for Speech Enhancement based on Generalized Principal Components	Jul 1, 2020	Speech Enhancement	CodeCode Available	1	5
Diffusion-based Generative Speech Source Separation	Oct 31, 2022	Speech Enhancement	CodeCode Available	1	5
A Mask Free Neural Network for Monaural Speech Enhancement	Jun 7, 2023	Speech Enhancement	CodeCode Available	1	5
Investigating the Design Space of Diffusion Models for Speech Enhancement	Dec 7, 2023	Image GenerationSpeech Enhancement	CodeCode Available	1	5
Diff-SV: A Unified Hierarchical Framework for Noise-Robust Speaker Verification Using Score-Based Diffusion Probabilistic Models	Sep 14, 2023	Speaker VerificationSpeech Enhancement	CodeCode Available	1	5
Diffusion-Based Mel-Spectrogram Enhancement for Personalized Speech Synthesis with Found Data	May 18, 2023	Speech EnhancementSpeech Synthesis	CodeCode Available	1	5
Separate but Together: Unsupervised Federated Learning for Speech Enhancement from Non-IID Data	May 11, 2021	Federated LearningSpeech Enhancement	CodeCode Available	1	5
Deep Residual-Dense Lattice Network for Speech Enhancement	Feb 27, 2020	Speech Enhancement	CodeCode Available	1	5
DeFT-AN: Dense Frequency-Time Attentive Network for Multichannel Speech Enhancement	Dec 15, 2022	DenoisingSpeech Dereverberation	CodeCode Available	1	5
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features	Nov 3, 2021	PredictionSpeech Enhancement	CodeCode Available	1	5
Self-Attention Generative Adversarial Network for Speech Enhancement	Oct 18, 2020	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available	1	5
dEchorate: a Calibrated Room Impulse Response Database for Echo-aware Signal Processing	Apr 27, 2021	BenchmarkingRetrieval	CodeCode Available	1	5
Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement	Mar 4, 2022	Active Speaker DetectionMulti-Task Learning	CodeCode Available	1	5
A Modulation-Domain Loss for Neural-Network-based Real-time Speech Enhancement	Feb 15, 2021	Speaker IdentificationSpeech Denoising	CodeCode Available	1	5
D4AM: A General Denoising Framework for Downstream Acoustic Models	Nov 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
DeFTAN-II: Efficient Multichannel Speech Enhancement with Subgroup Processing	Aug 30, 2023	Speech Enhancement	CodeCode Available	1	5
Continual self-training with bootstrapped remixing for speech enhancement	Oct 19, 2021	Domain AdaptationSpeech Enhancement	CodeCode Available	1	5
Stabilizing Label Assignment for Speech Separation by Self-supervised Pre-training	Oct 29, 2020	Speaker SeparationSpeech Enhancement	CodeCode Available	1	5
SERIL: Noise Adaptive Speech Enhancement using Regularization-based Incremental Learning	May 24, 2020	Incremental LearningSpeech Enhancement	CodeCode Available	1	5

Show:10 25 50

← PrevPage 4 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified