Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–3000 of 6433 papers

Title	Date	Tasks	Status
Knowledge Transfer from Large-scale Pretrained Language Models to End-to-end Speech Recognizers	Feb 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ADIMA: Abuse Detection In Multilingual Audio	Feb 16, 2022	Abuse DetectionAutomatic Speech Recognition	CodeCode Available
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition	Feb 15, 2022	Audio-Visual Speech RecognitionLipreading	—Unverified
Multi-style Training for South African Call Centre Audio	Feb 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Saving RNN Computations with a Neuron-Level Fuzzy Memoization Scheme	Feb 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference	Feb 14, 2022	Quantizationspeech-recognition	—Unverified
Multimodal Depression Classification Using Articulatory Coordination Features And Hierarchical Attention Based Text Embeddings	Feb 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder	Feb 12, 2022	DecoderLanguage Modeling	—Unverified
Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding	Feb 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Ultra-low Power Always-on Intelligent and Connected SNN-based System for Multimedia IoT-enabled Applications	Feb 10, 2022	speech-recognitionSpeech Recognition	—Unverified
The Volcspeech system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge	Feb 9, 2022	Data AugmentationLanguage Modelling	—Unverified
A two-step approach to leverage contextual data: speech recognition in air-traffic communications	Feb 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing ASR for Stuttered Speech with Limited Data Using Detect and Pass	Feb 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
T-NGA: Temporal Network Grafting Algorithm for Learning to Process Spiking Audio Sensor Events	Feb 7, 2022	speech-recognitionSpeech Recognition	—Unverified
Polyphonic pitch detection with convolutional recurrent neural networks	Feb 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The CUHK-TENCENT speaker diarization system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge	Feb 4, 2022	Action DetectionActivity Detection	—Unverified
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified
The RoyalFlush System of Speech Recognition for M2MeT Challenge	Feb 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ASR-Aware End-to-end Neural Diarization	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RescoreBERT: Discriminative Speech Recognition Rescoring with BERT	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Error Correction in ASR using Sequence-to-Sequence Models	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BEA-Base: A Benchmark for ASR of Spontaneous Hungarian	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
XLSR53 Wav2Vec2 Portuguese by Orlem Santos	Feb 1, 2022	Speech Recognition	CodeCode Available
Language Dependencies in Adversarial Attacks on Speech Recognition Systems	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Visualizing Automatic Speech Recognition -- Means for a Better Understanding?	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
NAS-Bench-Suite: NAS Evaluation is (Now) Surprisingly Easy	Jan 31, 2022	AutoMLimage-classification	—Unverified
Improving End-to-End Models for Set Prediction in Spoken Language Understanding	Jan 28, 2022	Data AugmentationDecoder	—Unverified
Reducing language context confusion for end-to-end code-switching automatic speech recognition	Jan 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Neural-FST Class Language Model for End-to-End Speech Recognition	Jan 28, 2022	Language ModelingLanguage Modelling	—Unverified
Star Temporal Classification: Sequence Classification with Partially Labeled Data	Jan 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition	Jan 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sentiment-Aware Automatic Speech Recognition pre-training for enhanced Speech Emotion Recognition	Jan 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Effectiveness of Pinyin-Character Dual-Decoding for End-to-End Mandarin Chinese ASR	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR	Jan 26, 2022	DecoderLanguage Modeling	—Unverified
The Norwegian Parliamentary Speech Corpus	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving non-autoregressive end-to-end speech recognition with pre-trained acoustic and language models	Jan 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Run-and-back stitch search: novel block synchronous decoding for streaming encoder-decoder ASR	Jan 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving the fusion of acoustic and text representations in RNN-T	Jan 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video	Jan 25, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Investigation of Deep Neural Network Acoustic Modelling Approaches for Low Resource Accented Mandarin Speech Recognition	Jan 24, 2022	Acoustic Modellingspeech-recognition	—Unverified
Data and knowledge-driven approaches for multilingual training to improve the performance of speech recognition systems of Indian languages	Jan 24, 2022	speech-recognitionSpeech Recognition	—Unverified
PickNet: Real-Time Channel Selection for Ad Hoc Microphone Arrays	Jan 24, 2022	channel selectionspeech-recognition	—Unverified
Variational Auto-Encoder Based Variability Encoding for Dysarthric Speech Recognition	Jan 24, 2022	speech-recognitionSpeech Recognition	—Unverified
Endpoint Detection for Streaming End-to-End Multi-talker ASR	Jan 24, 2022	Sentencespeech-recognition	—Unverified
A Noise-Robust Self-supervised Pre-training Model Based Speech Representation Learning for Automatic Speech Recognition	Jan 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enabling Deep Learning on Edge Devices through Filter Pruning and Knowledge Transfer	Jan 22, 2022	image-classificationImage Classification	—Unverified
Human and Automatic Speech Recognition Performance on German Oral History Interviews	Jan 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
How Bad Are Artifacts?: Analyzing the Impact of Speech Enhancement Errors on ASR	Jan 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning	Jan 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 60 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified