Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 982 papers

Title	Date	Tasks	Status
Generative Pre-training for Speech with Flow Matching	Oct 25, 2023	Speech EnhancementSpeech Synthesis	—Unverified
LC-TTFS: Towards Lossless Network Conversion for Spiking Neural Networks with TTFS Coding	Oct 23, 2023	Edge-computingimage-classification	—Unverified
Deep Beamforming for Speech Enhancement and Speaker Localization with an Array Response-Aware Loss Function	Oct 19, 2023	Speech Enhancement	—Unverified
Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios	Oct 16, 2023	Speech EnhancementSpeech Separation	—Unverified
A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction	Oct 12, 2023	DenoisingSpeech Enhancement	—Unverified
Magnitude-and-phase-aware Speech Enhancement with Parallel Sequence Modeling	Oct 11, 2023	Speech Enhancement	—Unverified
Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms	Oct 11, 2023	BenchmarkingDenoising	—Unverified
VSANet: Real-time Speech Enhancement Based on Voice Activity Detection and Causal Spatial Attention	Oct 11, 2023	Action DetectionActivity Detection	—Unverified
An experiment on an automated literature survey of data-driven speech enhancement methods	Oct 10, 2023	ArticlesSpeech Enhancement	—Unverified
An Exploration of Task-decoupling on Two-stage Neural Post Filter for Real-time Personalized Acoustic Echo Cancellation	Oct 7, 2023	Acoustic echo cancellationSpeech Enhancement	—Unverified
MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice Enhancement	Oct 6, 2023	Music Source SeparationSpeech Enhancement	—Unverified
uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models	Oct 2, 2023	DenoisingSelf-Supervised Learning	—Unverified
A Fused Deep Denoising Sound Coding Strategy for Bilateral Cochlear Implants	Oct 2, 2023	DenoisingSpeech Enhancement	—Unverified
Toward Universal Speech Enhancement for Diverse Input Conditions	Sep 29, 2023	DenoisingSpeech Enhancement	—Unverified
Multichannel Voice Trigger Detection Based on Transform-average-concatenate	Sep 27, 2023	channel selectionSpeech Enhancement	—Unverified
Does Single-channel Speech Enhancement Improve Keyword Spotting Accuracy? A Case Study	Sep 27, 2023	Automatic Speech RecognitionKeyword Spotting	—Unverified
DDTSE: Discriminative Diffusion Model for Target Speech Extraction	Sep 25, 2023	modelSpeech Enhancement	—Unverified
AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data	Sep 25, 2023	Automatic Speech RecognitionSpeech Enhancement	—Unverified
Speech enhancement with frequency domain auto-regressive modeling	Sep 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Multiscale Autoencoder (MSAE) Framework for End-to-End Neural Network Speech Enhancement	Sep 21, 2023	Automatic Speech RecognitionSpeech Enhancement	—Unverified
Deep Complex U-Net with Conformer for Audio-Visual Speech Enhancement	Sep 20, 2023	DecoderSpeech Enhancement	—Unverified
Joint Minimum Processing Beamforming and Near-end Listening Enhancement	Sep 20, 2023	Speech Enhancement	—Unverified
Posterior sampling algorithms for unsupervised speech enhancement with recurrent variational autoencoder	Sep 19, 2023	Computational EfficiencySpeech Enhancement	—Unverified
Exploring Speech Enhancement for Low-resource Speech Synthesis	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Diffusion-based speech enhancement with a weighted generative-supervised learning loss	Sep 19, 2023	Speech Enhancement	—Unverified
Refining DNN-based Mask Estimation using CGMM-based EM Algorithm for Multi-channel Noise Reduction	Sep 18, 2023	Speech Enhancement	—Unverified
Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning	Sep 17, 2023	Automatic Speech RecognitionDenoising	—Unverified
Unifying Robustness and Fidelity: A Comprehensive Study of Pretrained Generative Methods for Speech Enhancement in Adverse Conditions	Sep 16, 2023	Speech Enhancement	—Unverified
Two-Step Knowledge Distillation for Tiny Speech Enhancement	Sep 15, 2023	Knowledge DistillationModel Compression	—Unverified
AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement	Sep 14, 2023	ResynthesisSpeech Enhancement	—Unverified
Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments	Sep 12, 2023	Speech Enhancement	—Unverified
CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram	Sep 12, 2023	DenoisingSpeech Denoising	—Unverified
PlumberNet: Fixing interference leakage after GEV beamforming	Sep 10, 2023	Speech Enhancement	CodeCode Available
Spiking Structured State Space Model for Monaural Speech Enhancement	Sep 7, 2023	Speech EnhancementState Space Models	—Unverified
Causal Signal-Based DCCRN with Overlapped-Frame Prediction for Online Speech Enhancement	Sep 7, 2023	Speech Enhancement	—Unverified
Single-Channel Speech Enhancement with Deep Complex U-Networks and Probabilistic Latent Space Models	Sep 4, 2023	Speech Enhancement	—Unverified
Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement	Sep 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Rep2wav: Noise Robust text-to-speech Using self-supervised representations	Aug 28, 2023	Speech Enhancementtext-to-speech	—Unverified
Exploiting Time-Frequency Conformers for Music Audio Enhancement	Aug 24, 2023	Speech Enhancement	—Unverified
AdVerb: Visually Guided Audio Dereverberation	Aug 23, 2023	Speaker VerificationSpeech Enhancement	—Unverified
Convoifilter: A case study of doing cocktail party speech recognition	Aug 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer	Aug 14, 2023	Language ModelingLanguage Modelling	—Unverified
Target Speech Extraction with Conditional Diffusion Model	Aug 8, 2023	Denoisingmodel	—Unverified
Efficient Monaural Speech Enhancement using Spectrum Attention Fusion	Aug 4, 2023	Speech Enhancement	—Unverified
SAMbA: Speech enhancement with Asynchronous ad-hoc Microphone Arrays	Jul 31, 2023	Speech Enhancement	—Unverified
PCNN: A Lightweight Parallel Conformer Neural Network for Efficient Monaural Speech Enhancement	Jul 28, 2023	Speech Enhancement	—Unverified
The Effect of Spoken Language on Speech Enhancement using Self-Supervised Speech Representation Loss Functions	Jul 27, 2023	Speech Enhancement	CodeCode Available
Single Channel Speech Enhancement Using U-Net Spiking Neural Networks	Jul 26, 2023	Speech Enhancement	CodeCode Available
Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals using Self Supervised Speech Representations	Jul 25, 2023	PredictionSpeech Enhancement	—Unverified

Show:10 25 50

← PrevPage 9 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified