Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4751–4800 of 6433 papers

Title	Date	Tasks	Status	Hype
Connectionist Temporal Classification with Maximum Entropy Regularization	Dec 1, 2018	ClassificationGeneral Classification	CodeCode Available	0
Acoustics-guided evaluation (AGE): a new measure for estimating performance of speech enhancement algorithms for robust ASR	Nov 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
On the Inductive Bias of Word-Character-Level Multi-Task Learning for Speech Recognition	Nov 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Context-Aware Dialog Re-Ranking for Task-Oriented Dialog Systems	Nov 28, 2018	Re-Rankingspeech-recognition	CodeCode Available	0
Efficient non-uniform quantizer for quantized neural network targeting reconfigurable hardware	Nov 27, 2018	image-classificationImage Classification	—Unverified	0
Improved Speech Enhancement with the Wave-U-Net	Nov 27, 2018	Audio Source SeparationSpeech Enhancement	CodeCode Available	0
Learning to detect dysarthria from raw speech	Nov 27, 2018	General ClassificationSentence	CodeCode Available	0
Interpretable Convolutional Filters with SincNet	Nov 23, 2018	Distant Speech RecognitionInductive Bias	—Unverified	0
Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes	Nov 22, 2018	Allspeech-recognition	—Unverified	0
Speech recognition with quaternion neural networks	Nov 21, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions	Nov 21, 2018	DiagnosticSpecificity	—Unverified	0
WEST: Word Encoded Sequence Transducers	Nov 20, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The PyTorch-Kaldi Speech Recognition Toolkit	Nov 19, 2018	Distant Speech RecognitionNoisy Speech Recognition	CodeCode Available	1
A Voice Controlled E-Commerce Web Application	Nov 16, 2018	Medical Diagnosisspeech-recognition	—Unverified	0
Investigating the Effects of Word Substitution Errors on Sentence Embeddings	Nov 16, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Streaming End-to-end Speech Recognition For Mobile Devices	Nov 15, 2018	speech-recognitionSpeech Recognition	CodeCode Available	0
An Online Attention-based Model for Speech Recognition	Nov 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Modality Attention for End-to-End Audio-visual Speech Recognition	Nov 13, 2018	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified	0
Corpus Phonetics Tutorial	Nov 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploring RNN-Transducer for Chinese Speech Recognition	Nov 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Sequence-Level Knowledge Distillation for Model Compression of Attention-based Sequence-to-Sequence Speech Recognition	Nov 12, 2018	Knowledge DistillationModel Compression	—Unverified	0
Vectorization of hypotheses and speech for faster beam search in encoder decoder-based speech recognition	Nov 12, 2018	DecoderGPU	—Unverified	0
Stream attention-based multi-array end-to-end speech recognition	Nov 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Analyzing deep CNN-based utterance embeddings for acoustic model adaptation	Nov 12, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Multi-encoder multi-resolution framework for end-to-end speech recognition	Nov 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Reinforcement Learning Based Speech Enhancement for Robust Speech Recognition	Nov 10, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving End-to-end Speech Recognition with Pronunciation-assisted Sub-word Modeling	Nov 10, 2018	Automatic Speech Recognition (ASR)speech-recognition	—Unverified	0
Multimodal Grounding for Sequence-to-Sequence Speech Recognition	Nov 9, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Few-shot learning with attention-based sequence-to-sequence models	Nov 8, 2018	DecoderFew-Shot Learning	—Unverified	0
Confusion2Vec: Towards Enriching Vector Space Word Representations with Representational Ambiguities	Nov 8, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
RNNFast: An Accelerator for Recurrent Neural Networks Using Domain Wall Memory	Nov 7, 2018	speech-recognitionSpeech Recognition	—Unverified	0
CNN-based MultiChannel End-to-End Speech Recognition for everyday home environments	Nov 7, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Analysis of Multilingual Sequence-to-Sequence speech recognition systems	Nov 7, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Fluent Translations from Disfluent Speech	Nov 7, 2018	Machine Translationspeech-recognition	—Unverified	0
Language model integration based on memory control for sequence to sequence speech recognition	Nov 6, 2018	Language ModelingLanguage Modelling	—Unverified	0
Bidirectional Quaternion Long-Short Term Memory Recurrent Neural Networks for Speech Recognition	Nov 6, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Reconstructing Speech Stimuli From Human Auditory Cortex Activity Using a WaveNet Approach	Nov 6, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Discriminative training of RNNLMs with the average word error criterion	Nov 6, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unpaired Speech Enhancement by Acoustic and Adversarial Supervision for Speech Recognition	Nov 6, 2018	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available	0
Hierarchical Neural Network Architecture In Keyword Spotting	Nov 6, 2018	Keyword Spottingspeech-recognition	—Unverified	0
The Marchex 2018 English Conversational Telephone Speech Recognition System	Nov 5, 2018	Language ModelingLanguage Modelling	—Unverified	0
End-to-End Monaural Multi-speaker ASR System without Pretraining	Nov 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
When CTC Training Meets Acoustic Landmarks	Nov 5, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified	0
Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation	Nov 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Adversarial Black-Box Attacks on Automatic Speech Recognition Systems using Multi-Objective Evolutionary Optimization	Nov 4, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Pushing the boundaries of audiovisual word recognition using Residual Networks and LSTMs	Nov 3, 2018	Lipreadingspeech-recognition	—Unverified	0
Cycle-consistency training for end-to-end speech recognition	Nov 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Training Neural Speech Recognition Systems with Synthetic Speech Augmentation	Nov 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Adversarial Training of End-to-end Speech Recognition Using a Criticizing Language Model	Nov 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving the Robustness of Speech Translation	Nov 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 96 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified