Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 982 papers

Title	Date	Tasks	Status
Reduction of Subjective Listening Effort for TV Broadcast Signals with Recurrent Neural Networks	Nov 2, 2021	Audio Source SeparationSpeech Enhancement	—Unverified
SNRi Target Training for Joint Speech Enhancement and Recognition	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-attention conformer for context modeling in speech enhancement for ASR	Oct 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction	Oct 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Closing the Gap Between Time-Domain Multi-Channel Speech Enhancement on Real and Simulation Conditions	Oct 27, 2021	Speech Enhancementspeech-recognition	—Unverified
One model to enhance them all: array geometry agnostic multi-channel personalized speech enhancement	Oct 20, 2021	AllAutomatic Speech Recognition	—Unverified
Speech Enhancement Based on Cyclegan with Noise-informed Training	Oct 19, 2021	Speech Enhancement	—Unverified
Speech Enhancement-assisted Voice Conversion in Noisy Environments	Oct 19, 2021	Speech EnhancementVoice Conversion	—Unverified
Personalized Speech Enhancement: New Models and Comprehensive Evaluation	Oct 18, 2021	Speech Enhancementspeech-recognition	—Unverified
Similarity-and-Independence-Aware Beamformer with Iterative Casting and Boost Start for Target Source Extraction Using Reference	Oct 18, 2021	Speech Enhancementspeech-recognition	—Unverified
Improving Character Error Rate Is Not Equal to Having Clean Speech: Speech Enhancement for ASR Systems with Black-box Acoustic Models	Oct 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition	Oct 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Aura: Privacy-preserving Augmentation to Improve Test Set Diversity in Speech Enhancement	Oct 8, 2021	DiversityPrivacy Preserving	CodeCode Available
Lightweight Speech Enhancement in Unseen Noisy and Reverberant Conditions using KISS-GEV Beamforming	Oct 6, 2021	Speech Enhancement	—Unverified
PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation Extraction	Oct 3, 2021	Speaker IdentificationSpeaker Verification	CodeCode Available
End-to-End Complex-Valued Multidilated Convolutional Neural Network for Joint Acoustic Echo Cancellation and Noise Suppression	Oct 2, 2021	Acoustic echo cancellationSpeech Enhancement	—Unverified
Employing low-pass filtered temporal speech features for the training of ideal ratio mask in speech enhancement	Oct 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech-MLP: a simple MLP architecture for speech processing	Sep 29, 2021	Keyword SpottingSpeech Enhancement	—Unverified
Masks Fusion with Multi-Target Learning For Speech Enhancement	Sep 23, 2021	Speech Enhancement	CodeCode Available
DDS: A new device-degraded speech dataset for speech enhancement	Sep 16, 2021	DiversitySpeech Enhancement	—Unverified
Incorporating Real-world Noisy Speech in Neural-network-based Speech Enhancement Systems	Sep 11, 2021	Speech EnhancementTriplet	—Unverified
Time Alignment using Lip Images for Frame-based Electrolaryngeal Voice Conversion	Sep 8, 2021	Dynamic Time WarpingSpeech Enhancement	—Unverified
Machine Learning: Challenges, Limitations, and Compatibility for Audio Restoration Processes	Sep 6, 2021	BIG-bench Machine LearningGenerative Adversarial Network	—Unverified
A Two-stage Complex Network using Cycle-consistent Generative Adversarial Networks for Speech Enhancement	Sep 5, 2021	DenoisingSpeech Enhancement	—Unverified
Task-aware Warping Factors in Mask-based Speech Enhancement	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Full Attention Bidirectional Deep Learning Structure for Single Channel Speech Enhancement	Aug 27, 2021	Audio Signal ProcessingSpeech Enhancement	—Unverified
Cross-domain Single-channel Speech Enhancement Model with Bi-projection Fusion Module for Noise-robust ASR	Aug 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Residual Echo Suppression and Noise Reduction: A Multi-Input FCRN Approach in a Hybrid Speech Enhancement System	Aug 6, 2021	Acoustic echo cancellationSpeech Enhancement	—Unverified
Inplace Gated Convolutional Recurrent Neural Network For Dual-channel Speech Enhancement	Jul 26, 2021	Speech Enhancement	—Unverified
Controlling the Perceived Sound Quality for Dialogue Enhancement with Deep Learning	Jul 22, 2021	Speech Enhancement	—Unverified
Multitask-Based Joint Learning Approach To Robust ASR For Radio Communication Speech	Jul 22, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating Multi-Target in Multi-Stage Speech Enhancement Model for Better Generalization	Jul 9, 2021	DenoisingSpeech Denoising	—Unverified
DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement	Jun 30, 2021	Computational EfficiencyDenoising	—Unverified
SRIB-LEAP submission to Far-field Multi-Channel Speech Enhancement Challenge for Video Conferencing	Jun 24, 2021	Speech Enhancement	—Unverified
Deep neural network Based Low-latency Speech Separation with Asymmetric analysis-Synthesis Window Pair	Jun 22, 2021	ClusteringDeep Clustering	—Unverified
DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement	Jun 16, 2021	DecoderSpeech Enhancement	—Unverified
A Flow-Based Neural Network for Time Domain Speech Enhancement	Jun 16, 2021	Density EstimationSpeech Enhancement	—Unverified
Deep Interaction between Masking and Mapping Targets for Single-Channel Speech Enhancement	Jun 9, 2021	DenoisingSpeech Enhancement	—Unverified
Human Listening and Live Captioning: Multi-Task Training for Speech Enhancement	Jun 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Should We Always Separate?: Switching Between Enhanced and Observed Signals for Overlapping Speech Recognition	Jun 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Neural Acoustic Echo Canceller Optimized Using An Automatic Speech Recognizer And Large Scale Synthetic Data	Jun 1, 2021	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Phoneme-Based Ratio Mask Estimation for Reverberant Speech Enhancement in Cochlear Implant Processors	May 28, 2021	SentenceSpeech Enhancement	—Unverified
An Improved Measure of Musical Noise Based on Spectral Kurtosis	May 27, 2021	Speech Enhancement	—Unverified
Training Speech Enhancement Systems with Noisy Speech Datasets	May 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Disentanglement Learning for Variational Autoencoders Applied to Audio-Visual Speech Enhancement	May 19, 2021	AttributeDecoder	CodeCode Available
A time-domain nearfield frequency-invariant beamforming method	May 18, 2021	Speech Enhancement	—Unverified
Dual-Stage Low-Complexity Reconfigurable Speech Enhancement	May 17, 2021	Speech Enhancement	—Unverified
Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model Selection	May 8, 2021	ClusteringDenoising	—Unverified
Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot Learning with Knowledge Distillation	May 8, 2021	DenoisingKnowledge Distillation	—Unverified
Speech Enhancement using Separable Polling Attention and Global Layer Normalization followed with PReLU	May 6, 2021	Speech Enhancement	—Unverified

Show:10 25 50

← PrevPage 14 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified