Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 982 papers

Title	Date	Tasks	Status	Hype
Target Speech Extraction with Conditional Diffusion Model	Aug 8, 2023	Denoisingmodel	—Unverified	0
Efficient Monaural Speech Enhancement using Spectrum Attention Fusion	Aug 4, 2023	Speech Enhancement	—Unverified	0
SAMbA: Speech enhancement with Asynchronous ad-hoc Microphone Arrays	Jul 31, 2023	Speech Enhancement	—Unverified	0
PCNN: A Lightweight Parallel Conformer Neural Network for Efficient Monaural Speech Enhancement	Jul 28, 2023	Speech Enhancement	—Unverified	0
The Effect of Spoken Language on Speech Enhancement using Self-Supervised Speech Representation Loss Functions	Jul 27, 2023	Speech Enhancement	CodeCode Available	0
Single Channel Speech Enhancement Using U-Net Spiking Neural Networks	Jul 26, 2023	Speech Enhancement	CodeCode Available	0
Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals using Self Supervised Speech Representations	Jul 25, 2023	PredictionSpeech Enhancement	—Unverified	0
MetricGAN-OKD: Multi-Metric Optimization of MetricGAN via Online Knowledge Distillation for Speech Enhancement	Jul 24, 2023	Knowledge DistillationSpeech Enhancement	CodeCode Available	1
SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs	Jul 18, 2023	Generative Adversarial NetworkLanguage Modeling	—Unverified	0
Low bit rate binaural link for improved ultra low-latency low-complexity multichannel speech enhancement in Hearing Aids	Jul 17, 2023	QuantizationSpeech Enhancement	—Unverified	0
Noise-aware Speech Enhancement using Diffusion Probabilistic Model	Jul 16, 2023	Denoisingmodel	CodeCode Available	1
Audio-Visual Speech Enhancement Using Self-supervised Learning to Improve Speech Intelligibility in Cochlear Implant Simulations	Jul 15, 2023	Self-Supervised LearningSpeech Enhancement	—Unverified	0
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition	Jul 6, 2023	Speech DereverberationSpeech Enhancement	—Unverified	0
Disentanglement in a GAN for Unconditional Speech Synthesis	Jul 4, 2023	DisentanglementGenerative Adversarial Network	CodeCode Available	1
Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement	Jun 15, 2023	Speech EnhancementSpeech Separation	—Unverified	0
Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement	Jun 14, 2023	Self-Supervised LearningSpeech Enhancement	—Unverified	0
Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement	Jun 14, 2023	Speech Enhancement	CodeCode Available	1
Unsupervised speech enhancement with deep dynamical generative speech and noise models	Jun 13, 2023	Speech Enhancement	—Unverified	0
Audio-Visual Speech Enhancement With Selective Off-Screen Speech Extraction	Jun 10, 2023	Computational EfficiencySpeech Enhancement	—Unverified	0
Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement	Jun 9, 2023	DecoderSpeech Enhancement	—Unverified	0
Convolutional Recurrent Neural Network with Attention for 3D Speech Enhancement	Jun 8, 2023	DenoisingSpeech Enhancement	—Unverified	0
A Mask Free Neural Network for Monaural Speech Enhancement	Jun 7, 2023	Speech Enhancement	CodeCode Available	1
On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings	Jun 5, 2023	DenoisingSpeech Enhancement	—Unverified	0
EffCRN: An Efficient Convolutional Recurrent Network for High-Performance Speech Enhancement	Jun 5, 2023	Speech Enhancement	—Unverified	0
Influence of Lossy Speech Codecs on Hearing-aid, Binaural Sound Source Localisation using DNNs	Jun 4, 2023	Speech Enhancement	—Unverified	0
On Crowdsourcing-design with Comparison Category Rating for Evaluating Speech Enhancement Algorithms	Jun 2, 2023	Speech Enhancementspeech-recognition	—Unverified	0
Audio-Visual Speech Enhancement with Score-Based Generative Models	Jun 2, 2023	Automatic Speech RecognitionLipreading	—Unverified	0
Harmonic enhancement using learnable comb filter for light-weight full-band speech enhancement model	Jun 1, 2023	RetrievalSpeech Enhancement	—Unverified	0
A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models	Jun 1, 2023	Data AugmentationSpeech Enhancement	CodeCode Available	1
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge Distillation	May 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss	May 24, 2023	Self-Supervised LearningSpeech Enhancement	—Unverified	0
SE-Bridge: Speech Enhancement with Consistent Brownian Bridge	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra	May 23, 2023	DecoderDenoising	CodeCode Available	2
DCCRN-KWS: an audio bias based model for noise robust small-footprint keyword spotting	May 21, 2023	DenoisingKeyword Spotting	—Unverified	0
Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders	May 18, 2023	DecoderSpeech Enhancement	—Unverified	0
Diffusion-Based Mel-Spectrogram Enhancement for Personalized Speech Synthesis with Found Data	May 18, 2023	Speech EnhancementSpeech Synthesis	CodeCode Available	1
BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions	May 17, 2023	EEGSpeech Enhancement	CodeCode Available	1
Integrating Uncertainty into Neural Network-based Speech Enhancement	May 15, 2023	Speech Enhancement	CodeCode Available	1
Deep Multi-Frame Filtering for Hearing Aids	May 14, 2023	Speech Enhancement	CodeCode Available	4
DeepFilterNet: Perceptually Motivated Real-Time Speech Enhancement	May 14, 2023	CPUSpeech Enhancement	CodeCode Available	4
Diffusion-based Signal Refiner for Speech Separation	May 10, 2023	DenoisingSpeech Enhancement	—Unverified	0
All Information is Necessary: Integrating Speech Positive and Negative Information by Contrastive Learning for Speech Enhancement	Apr 26, 2023	AllContrastive Learning	—Unverified	0
Neural Speech Enhancement with Very Low Algorithmic Latency and Complexity via Integrated Full- and Sub-Band Modeling	Apr 18, 2023	Speech Enhancement	—Unverified	0
Array Configuration-Agnostic Personal Voice Activity Detection Based on Spatial Coherence	Apr 18, 2023	Action DetectionActivity Detection	—Unverified	0
The future of hearing aid technology	Apr 13, 2023	Speech Enhancement	—Unverified	0
Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields	Apr 13, 2023	NeRFNovel View Synthesis	CodeCode Available	2
Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR	Apr 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Attention-based Speech Enhancement Using Human Quality Perception Modelling	Mar 23, 2023	Language ModelingLanguage Modelling	—Unverified	0
A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI	Mar 23, 2023	Speech EnhancementSpeech Synthesis	—Unverified	0
Transformers in Speech Processing: A Survey	Mar 21, 2023	Automatic Speech RecognitionSpeech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 7 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified