Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5601–5650 of 6433 papers

Title	Date	Tasks	Status
Low-rank and Sparse Soft Targets to Learn Better DNN Acoustic Models	Oct 18, 2016	speech-recognitionSpeech Recognition	—Unverified
End-to-end attention-based distant speech recognition with Highway LSTM	Oct 17, 2016	Distant Speech Recognitionspeech-recognition	—Unverified
Achieving Human Parity in Conversational Speech Recognition	Oct 17, 2016	Language ModelingLanguage Modelling	—Unverified
Exploiting Sentence and Context Representations in Deep Neural Models for Spoken Language Understanding	Oct 13, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multiple Instance Learning Convolutional Neural Networks for Object Recognition	Oct 11, 2016	Data AugmentationMultiple Instance Learning	—Unverified
Long Short-Term Memory based Convolutional Recurrent Neural Networks for Large Vocabulary Speech Recognition	Oct 11, 2016	speech-recognitionSpeech Recognition	—Unverified
Very Deep Convolutional Networks for End-to-End Speech Recognition	Oct 10, 2016	speech-recognitionSpeech Recognition	CodeCode Available
Latent Sequence Decompositions	Oct 10, 2016	speech-recognitionSpeech Recognition	—Unverified
A Gentle Tutorial of Recurrent Neural Network with Error Backpropagation	Oct 8, 2016	Handwriting RecognitionImage to text	CodeCode Available
A Semantic Analyzer for the Comprehension of the Spontaneous Arabic Speech	Oct 8, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Challenges of Computational Processing of Code-Switching	Oct 7, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding	Oct 7, 2016	image-classificationImage Classification	CodeCode Available
Using Non-invertible Data Transformations to Build Adversarial-Robust Neural Networks	Oct 6, 2016	Autonomous VehiclesDimensionality Reduction	—Unverified
Adversary Resistant Deep Neural Networks with an Application to Malware Detection	Oct 5, 2016	Deep LearningInformation Retrieval	—Unverified
Monaural Multi-Talker Speech Recognition using Factorial Speech Processing Models	Oct 5, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semi-supervised Learning with Sparse Autoencoders in Phone Classification	Oct 3, 2016	Acoustic ModellingAutomatic Speech Recognition	—Unverified
Very Deep Convolutional Neural Networks for Robust Speech Recognition	Oct 2, 2016	Robust Speech Recognitionspeech-recognition	CodeCode Available
Retrieval Term Prediction Using Deep Learning Methods	Oct 1, 2016	ChunkingDeep Learning	—Unverified
Measuring Diversified Proficiency of Japanese Learners of English	Oct 1, 2016	Speech Recognition	—Unverified
A Generalized Framework for Hierarchical Word Sequence Language Model	Oct 1, 2016	Language ModelingLanguage Modelling	—Unverified
A Tour of TensorFlow	Oct 1, 2016	Deep Learningspeech-recognition	—Unverified
使用字典學習法於強健性語音辨識(The Use of Dictionary Learning Approach for Robustness Speech Recognition) [In Chinese]	Oct 1, 2016	Automatic Speech Recognition (ASR)Dictionary Learning	—Unverified
融合多任務學習類神經網路聲學模型訓練於會議語音辨識之研究(Leveraging Multi-task Learning with Neural Network Based Acoustic Modeling for Improved Meeting Speech Recognition) [In Chinese]	Oct 1, 2016	Multi-Task Learningspeech-recognition	—Unverified
FPGA-Based Low-Power Speech Recognition with Recurrent Neural Networks	Sep 30, 2016	Language ModelingLanguage Modelling	—Unverified
Memory Visualization for Gated Recurrent Neural Networks in Speech Recognition	Sep 28, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
OC16-CE80: A Chinese-English Mixlingual Database and A Speech Recognition Baseline	Sep 27, 2016	speech-recognitionSpeech Recognition	—Unverified
Multi-task Recurrent Model for True Multilingual Speech Recognition	Sep 27, 2016	speech-recognitionSpeech Recognition	—Unverified
Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning	Sep 21, 2016	DecoderMulti-Task Learning	CodeCode Available
Minimally Supervised Written-to-Spoken Text Normalization	Sep 21, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advances in All-Neural Speech Recognition	Sep 19, 2016	AllLanguage Modeling	—Unverified
Interactive Spoken Content Retrieval by Deep Reinforcement Learning	Sep 16, 2016	Deep Reinforcement LearningQ-Learning	—Unverified
An Adaptive Psychoacoustic Model for Automatic Speech Recognition	Sep 14, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Character-Level Language Modeling with Hierarchical Recurrent Neural Networks	Sep 13, 2016	Language ModelingLanguage Modelling	—Unverified
The Microsoft 2016 Conversational Speech Recognition System	Sep 12, 2016	Language ModelingLanguage Modelling	—Unverified
Purely sequence-trained neural networks for ASR based on lattice-free MMI	Sep 8, 2016	Language ModelingLanguage Modelling	—Unverified
A three-dimensional approach to Visual Speech Recognition using Discrete Cosine Transforms	Sep 7, 2016	speech-recognitionSpeech Recognition	—Unverified
Task Lineages: Dialog State Tracking for Flexible Interaction	Sep 1, 2016	dialog state trackingSpeech Recognition	—Unverified
On the verbalization patterns of part-whole relations in isiZulu	Sep 1, 2016	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Generating sets of related sentences from input seed features	Sep 1, 2016	Machine TranslationSpeech Recognition	—Unverified
LVCSR System on a Hybrid GPU-CPU Embedded Platform for Real-Time Dialog Applications	Sep 1, 2016	CPUGPU	—Unverified
Socially-Aware Animated Intelligent Personal Assistant Agent	Sep 1, 2016	Speech Recognition	—Unverified
Identifying Teacher Questions Using Automatic Speech Recognition in Classrooms	Sep 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Reward Augmented Maximum Likelihood for Neural Structured Prediction	Sep 1, 2016	Machine TranslationPrediction	—Unverified
Temperature-Based Deep Boltzmann Machines	Aug 27, 2016	Image Reconstructionspeech-recognition	—Unverified
Ensemble of Jointly Trained Deep Neural Network-Based Acoustic Models for Reverberant Speech Recognition	Aug 17, 2016	Distant Speech Recognitionspeech-recognition	—Unverified
Encoder-decoder with Focus-mechanism for Sequence Labelling Based Spoken Language Understanding	Aug 6, 2016	Decoderspeech-recognition	—Unverified
Learning Online Alignments with Continuous Rewards Policy Gradient	Aug 3, 2016	Machine TranslationQuestion Answering	—Unverified
Efficient Segmental Cascades for Speech Recognition	Aug 2, 2016	speech-recognitionSpeech Recognition	—Unverified
Knowledge Distillation for Small-footprint Highway Networks	Aug 2, 2016	Acoustic ModellingKnowledge Distillation	—Unverified
N-gram language models for massively parallel devices	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 113 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified