Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 982 papers

Title	Date	Tasks	Status	Hype
SCA: Streaming Cross-attention Alignment for Echo Cancellation	Nov 1, 2022	Speech EnhancementSpeech Separation	—Unverified	0
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Diffusion-based Generative Speech Source Separation	Oct 31, 2022	Speech Enhancement	CodeCode Available	1
Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement	Oct 27, 2022	DenoisingSpeech Enhancement	CodeCode Available	1
A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech	Oct 27, 2022	Speech Enhancement	CodeCode Available	0
Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement	Oct 26, 2022	Speech Enhancement	—Unverified	0
SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks	Oct 26, 2022	Speech Enhancement	—Unverified	0
TridentSE: Guiding Speech Enhancement with 32 Global Tokens	Oct 24, 2022	Speech Enhancement	—Unverified	0
Time-Domain Speech Enhancement for Robust Automatic Speech Recognition	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Novel Frame Structure for Cloud-Based Audio-Visual Speech Enhancement in Multimodal Hearing-aids	Oct 24, 2022	Lip ReadingSpeech Enhancement	—Unverified	0
Improved Normalizing Flow-Based Speech Enhancement using an All-pole Gammatone Filterbank for Conditional Input Representation	Oct 21, 2022	AllSpeech Enhancement	—Unverified	0
spatial-dccrn: dccrn equipped with frame-level angle feature and hybrid filtering for multi-channel speech enhancement	Oct 17, 2022	DenoisingSpeech Enhancement	—Unverified	0
Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization	Oct 14, 2022	QuantizationSpeech Enhancement	—Unverified	0
LeVoice ASR Systems for the ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge	Oct 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Binaural Speech Enhancement Using STOI-Optimal Masks	Sep 30, 2022	Speech Enhancement	—Unverified	0
Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization	Sep 28, 2022	DecoderDenoising	—Unverified	0
Speech Enhancement with Perceptually-motivated Optimization and Dual Transformations	Sep 24, 2022	Speech Enhancement	—Unverified	0
MMS-MSG: A Multi-purpose Multi-Speaker Mixture Signal Generator	Sep 23, 2022	Speech Enhancement	CodeCode Available	1
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement	Sep 22, 2022	Audio Super-ResolutionAutomatic Speech Recognition	CodeCode Available	2
GIST-AiTeR System for the Diarization Task of the 2022 VoxCeleb Speaker Recognition Challenge	Sep 21, 2022	Action DetectionActivity Detection	—Unverified	0
A Universally-Deployable ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation	Sep 14, 2022	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified	0
Multimodal Speech Enhancement Using Burst Propagation	Sep 7, 2022	ManagementSpeech Enhancement	—Unverified	0
Multi-View Attention Transfer for Efficient Speech Enhancement	Aug 22, 2022	Knowledge DistillationSpeech Enhancement	—Unverified	0
Speech Enhancement and Dereverberation with Diffusion-based Generative Models	Aug 11, 2022	Speech DereverberationSpeech Enhancement	—Unverified	0
DNN-Free Low-Latency Adaptive Speech Enhancement Based on Frame-Online Beamforming Powered by Block-Online FastMNMF	Jul 22, 2022	blind source separationSpeech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 18 of 40Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified