Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 982 papers

Title	Date	Tasks	Status	Hype
BASPRO: a balanced script producer for speech corpus collection based on the genetic algorithm	Dec 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
SpeechLMScore: Evaluating speech generation using speech language model	Dec 8, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
High Fidelity Speech Enhancement with Band-split RNN	Dec 1, 2022	Speech EnhancementVocal Bursts Intensity Prediction	CodeCode Available	1
McNet: Fuse Multiple Cues for Multichannel Speech Enhancement	Nov 16, 2022	Speech Enhancement	CodeCode Available	1
SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection	Nov 11, 2022	Speech Enhancement	CodeCode Available	1
Inference and Denoise: Causal Inference-based Neural Speech Enhancement	Nov 2, 2022	Causal InferenceSpeech Enhancement	CodeCode Available	1
Diffusion-based Generative Speech Source Separation	Oct 31, 2022	Speech Enhancement	CodeCode Available	1
Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement	Oct 27, 2022	DenoisingSpeech Enhancement	CodeCode Available	1
MMS-MSG: A Multi-purpose Multi-Speaker Mixture Signal Generator	Sep 23, 2022	Speech Enhancement	CodeCode Available	1
Improving Speech Enhancement through Fine-Grained Speech Characteristics	Jul 1, 2022	Deep LearningSpeech Enhancement	CodeCode Available	1
A light-weight full-band speech enhancement model	Jun 29, 2022	Speech Enhancement	CodeCode Available	1
Insights Into Deep Non-linear Filters for Improved Multi-channel Speech Enhancement	Jun 27, 2022	Speech Enhancement	CodeCode Available	1
A Systematic Comparison of Phonetic Aware Techniques for Speech Enhancement	Jun 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
On the Role of Spatial, Spectral, and Temporal Processing for DNN-based Non-linear Multi-channel Speech Enhancement	Jun 22, 2022	Speech EnhancementSpeech Extraction	CodeCode Available	1
Universal Speech Enhancement with Score-based Diffusion	Jun 7, 2022	Speech Enhancement	CodeCode Available	1
U-Former: Improving Monaural Speech Enhancement with Multi-head Self and Cross Attention	May 18, 2022	DecoderSpeech Enhancement	CodeCode Available	1
Boosting Self-Supervised Embeddings for Speech Enhancement	Apr 7, 2022	Self-Supervised LearningSpeech Enhancement	CodeCode Available	1
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis	Mar 31, 2022	Speech Enhancement	CodeCode Available	1
Perceptual Contrast Stretching on Target Feature for Speech Enhancement	Mar 31, 2022	Speech Enhancement	CodeCode Available	1
Speech Enhancement with Score-Based Generative Models in the Complex STFT Domain	Mar 31, 2022	Speech Enhancement	CodeCode Available	1
Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement	Mar 24, 2022	Audio GenerationBandwidth Extension	CodeCode Available	1
MANNER: Multi-view Attention Network for Noise Erasure	Mar 4, 2022	DecoderSpeech Enhancement	CodeCode Available	1
Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement	Mar 4, 2022	Active Speaker DetectionMulti-Task Learning	CodeCode Available	1
L3DAS22 Challenge: Learning 3D Audio Sources in a Real Office Environment	Feb 21, 2022	Sound Event Localization and DetectionSpeech Enhancement	CodeCode Available	1
RemixIT: Continual self-training of speech enhancement models via bootstrapped remixing	Feb 17, 2022	Domain AdaptationSpeech Enhancement	CodeCode Available	1
HGCN: Harmonic gated compensation network for speech enhancement	Jan 30, 2022	Action DetectionActivity Detection	CodeCode Available	1
Towards Intelligibility-Oriented Audio-Visual Speech Enhancement	Nov 18, 2021	Speech Enhancement	CodeCode Available	1
MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification	Nov 11, 2021	DenoisingSpeaker Verification	CodeCode Available	1
Unsupervised Noise Adaptive Speech Enhancement by Discriminator-Constrained Optimal Transport	Nov 11, 2021	Domain AdaptationSpeech Enhancement	CodeCode Available	1
Uformer: A Unet based dilated complex & real dual-path conformer network for simultaneous speech enhancement and dereverberation	Nov 11, 2021	DecoderSpeech Enhancement	CodeCode Available	1
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features	Nov 3, 2021	PredictionSpeech Enhancement	CodeCode Available	1
Continual self-training with bootstrapped remixing for speech enhancement	Oct 19, 2021	Domain AdaptationSpeech Enhancement	CodeCode Available	1
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing	Oct 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Toward Degradation-Robust Voice Conversion	Oct 14, 2021	DenoisingSpeech Enhancement	CodeCode Available	1
Dual-branch Attention-In-Attention Transformer for single-channel speech enhancement	Oct 13, 2021	Speech Enhancement	CodeCode Available	1
MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only on noisy/ reverberated speech	Oct 12, 2021	Speech Enhancement	CodeCode Available	1
Interactive Feature Fusion for End-to-End Noise-Robust Speech Recognition	Oct 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
NORESQA: A Framework for Speech Quality Assessment using Non-Matching References	Sep 16, 2021	Speech Enhancement	CodeCode Available	1
A Deep Learning Loss Function based on Auditory Power Compression for Speech Enhancement	Aug 26, 2021	Speech Enhancement	CodeCode Available	1
Complex-valued Spatial Autoencoders for Multichannel Speech Enhancement	Aug 6, 2021	Speech Enhancement	CodeCode Available	1
A Causal U-net based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement	Aug 1, 2021	CPUSpeech Enhancement	CodeCode Available	1
Microphone Array Generalization for Multichannel Narrowband Deep Speech Enhancement	Jul 27, 2021	Speech Enhancement	CodeCode Available	1
A Study on Speech Enhancement Based on Diffusion Probabilistic Model	Jul 25, 2021	Speech Enhancement	CodeCode Available	1
Multi-Task Audio Source Separation	Jul 14, 2021	Audio Source SeparationMulti-task Audio Source Seperation	CodeCode Available	1
EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments	Jul 9, 2021	Speech Enhancement	CodeCode Available	1
TENET: A Time-reversal Enhancement Network for Noise-robust ASR	Jul 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Unsupervised Speech Enhancement using Dynamical Variational Auto-Encoders	Jun 23, 2021	Representation LearningSpeech Enhancement	CodeCode Available	1
MeshRIR: A Dataset of Room Impulse Responses on Meshed Grid Points For Evaluating Sound Field Analysis and Synthesis Methods	Jun 21, 2021	Distant Speech RecognitionRoom Impulse Response (RIR)	CodeCode Available	1
Attention-based distributed speech enhancement for unconstrained microphone arrays with varying number of nodes	Jun 15, 2021	Speech Enhancement	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified