Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 982 papers

Title	Date	Tasks	Status	Hype
Exploration of Adapter for Noise Robust Automatic Speech Recognition	Feb 28, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Audio-Visual Speech Enhancement in Noisy Environments via Emotion-Based Contextual Cues	Feb 26, 2024	DecoderSpeech Enhancement	—Unverified	0
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech	Feb 26, 2024	QuantizationSpeech Enhancement	CodeCode Available	2
SICRN: Advancing Speech Enhancement through State Space Model and Inplace Convolution Techniques	Feb 22, 2024	Speech Enhancement	—Unverified	0
Mel-FullSubNet: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR	Feb 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Plugin Speech Enhancement: A Universal Speech Enhancement Framework Inspired by Dynamic Neural Network	Feb 20, 2024	Data AugmentationSpeech Enhancement	—Unverified	0
SECP: A Speech Enhancement-Based Curation Pipeline For Scalable Acquisition Of Clean Speech	Feb 19, 2024	Speech Enhancement	—Unverified	0
Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model	Feb 16, 2024	DenoisingSpeech Enhancement	—Unverified	0
Diffusion Models for Audio Restoration	Feb 15, 2024	Speech Enhancement	—Unverified	0
Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality	Feb 14, 2024	Audio Signal ProcessingSound Event Localization and Detection	—Unverified	0
Unrestricted Global Phase Bias-Aware Single-channel Speech Enhancement with Conformer-based Metric GAN	Feb 13, 2024	Speech Enhancement	—Unverified	0
Array Geometry-Robust Attention-Based Neural Beamformer for Moving Speakers	Feb 5, 2024	Speech Enhancement	—Unverified	0
Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge	Feb 2, 2024	Domain AdaptationSpeech Enhancement	CodeCode Available	0
Real-time Stereo Speech Enhancement with Spatial-Cue Preservation based on Dual-Path Structure	Feb 1, 2024	Speech Enhancement	—Unverified	0
An Analysis of the Variance of Diffusion-based Speech Enhancement	Feb 1, 2024	Speech Enhancement	—Unverified	0
SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition	Jan 31, 2024	DecoderLanguage Modeling	—Unverified	0
Improving Design of Input Condition Invariant Speech Enhancement	Jan 25, 2024	Speech Enhancement	CodeCode Available	0
A Two-Stage Framework in Cross-Spectrum Domain for Real-Time Speech Enhancement	Jan 19, 2024	Speech Enhancement	—Unverified	0
An Empirical Study on the Impact of Positional Encoding in Transformer-based Monaural Speech Enhancement	Jan 18, 2024	POSPosition	—Unverified	0
On Speech Pre-emphasis as a Simple and Inexpensive Method to Boost Speech Enhancement	Jan 17, 2024	Automatic Speech RecognitionSpeech Enhancement	—Unverified	0
Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters	Jan 10, 2024	Self-Supervised LearningSpeech Enhancement	—Unverified	0
FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation	Jan 8, 2024	Acoustic echo cancellationSpeech Enhancement	—Unverified	0
A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model	Jan 5, 2024	Speech Enhancementspeech-recognition	—Unverified	0
Single-channel speech enhancement using learnable loss mixup	Dec 20, 2023	Speech Enhancement	—Unverified	0
On real-time multi-stage speech enhancement systems	Dec 19, 2023	Speech Enhancement	—Unverified	0
A Refining Underlying Information Framework for Monaural Speech Enhancement	Dec 18, 2023	Speech Enhancement	CodeCode Available	1
Attention-Driven Multichannel Speech Enhancement in Moving Sound Source Scenarios	Dec 17, 2023	Speech Enhancement	—Unverified	0
A Deep Representation Learning-based Speech Enhancement Method Using Complex Convolution Recurrent Variational Autoencoder	Dec 15, 2023	Representation LearningSpeech Enhancement	—Unverified	0
SELM: Speech Enhancement Using Discrete Tokens and Language Models	Dec 15, 2023	Self-Supervised LearningSpeech Enhancement	—Unverified	0
Ultra Low Complexity Deep Learning Based Noise Suppression	Dec 13, 2023	Deep LearningSpeech Enhancement	—Unverified	0
ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning	Dec 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Investigating the Design Space of Diffusion Models for Speech Enhancement	Dec 7, 2023	Image GenerationSpeech Enhancement	CodeCode Available	1
Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions Using a Heun-Based Sampler	Dec 5, 2023	Image GenerationSpeech Enhancement	—Unverified	0
SEFGAN: Harvesting the Power of Normalizing Flows and GANs for Efficient High-Quality Speech Enhancement	Dec 4, 2023	Audio GenerationSpeech Enhancement	—Unverified	0
Head Orientation Estimation with Distributed Microphones Using Speech Radiation Patterns	Dec 4, 2023	Speech Enhancement	—Unverified	0
Subspace Hybrid MVDR Beamforming for Augmented Hearing	Nov 30, 2023	Computational EfficiencySpeech Enhancement	—Unverified	0
D4AM: A General Denoising Framework for Downstream Acoustic Models	Nov 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
LC4SV: A Denoising Framework Learning to Compensate for Unseen Speaker Verification Models	Nov 28, 2023	DenoisingSpeaker Verification	—Unverified	0
CheapNET: Improving Light-weight speech enhancement network by projected loss function	Nov 27, 2023	Speech Enhancement	—Unverified	0
Cooperative Dual Attention for Audio-Visual Speech Enhancement with Facial Cues	Nov 24, 2023	Speech Enhancement	—Unverified	0
Sparsity-Driven EEG Channel Selection for Brain-Assisted Speech Enhancement	Nov 22, 2023	channel selectionEEG	—Unverified	0
How does end-to-end speech recognition training impact speech enhancement artifacts?	Nov 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SE Territory: Monaural Speech Enhancement Meets the Fixed Virtual Perceptual Space Mapping	Nov 3, 2023	Multi-Task LearningSpeech Enhancement	—Unverified	0
Scenario-Aware Audio-Visual TF-GridNet for Target Speech Extraction	Oct 30, 2023	Speaker SeparationSpeech Enhancement	—Unverified	0
DPATD: Dual-Phase Audio Transformer for Denoising	Oct 30, 2023	DenoisingSpeech Enhancement	—Unverified	0
TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch	Oct 27, 2023	Self-Supervised LearningSpeech Enhancement	CodeCode Available	4
Single channel speech enhancement by colored spectrograms	Oct 26, 2023	DenoisingGenerative Adversarial Network	—Unverified	0
Generative Pre-training for Speech with Flow Matching	Oct 25, 2023	Speech EnhancementSpeech Synthesis	—Unverified	0
LC-TTFS: Towards Lossless Network Conversion for Spiking Neural Networks with TTFS Coding	Oct 23, 2023	Edge-computingimage-classification	—Unverified	0
Deep Beamforming for Speech Enhancement and Speaker Localization with an Array Response-Aware Loss Function	Oct 19, 2023	Speech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 5 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified