Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6251–6300 of 6433 papers

Title	Date	Tasks	Status
A Cross-language Study on Automatic Speech Disfluency Detection	Jun 1, 2013	Language ModellingSpeech Recognition	—Unverified
Text Alignment for Real-Time Crowd Captioning	Jun 1, 2013	Speech Recognition	—Unverified
Emergence of Gricean Maxims from Multi-Agent Decision Theory	Jun 1, 2013	Decision MakingSlot Filling	—Unverified
Differences in User Responses to a Wizard-of-Oz versus Automated System	Jun 1, 2013	Speech Recognition	—Unverified
MKPLS: Manifold Kernel Partial Least Squares for Lipreading and Speaker Identification	Jun 1, 2013	LipreadingSpeaker Identification	—Unverified
An Overview of Hindi Speech Recognition	May 9, 2013	speech-recognitionSpeech Recognition	—Unverified
Opportunities & Challenges In Automatic Speech Recognition	May 9, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Speech Recognition Using Template Model for Man-Machine Interface	May 9, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech Enhancement Using Pitch Detection Approach For Noisy Environment	May 9, 2013	Speech Enhancementspeech-recognition	—Unverified
Speech Enhancement Modeling Towards Robust Speech Recognition System	May 7, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Techniques for Feature Extraction In Speech Recognition System : A Comparative Study	May 6, 2013	speech-recognitionSpeech Recognition	—Unverified
CONATION: English Command Input/Output System for Computers	May 3, 2013	speech-recognitionSpeech Recognition	—Unverified
Analysis of Phonetic Transcription for Danish Automatic Speech Recognition	May 1, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Extension of hidden markov model for recognizing large vocabulary of sign language	Apr 11, 2013	Gesture RecognitionSign Language Recognition	—Unverified
Estimating Phoneme Class Conditional Probabilities from Raw Speech Signal using Convolutional Neural Networks	Apr 3, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech Recognition with Deep Recurrent Neural Networks	Mar 22, 2013	Handwriting RecognitionPhoneme Recognition	CodeCode Available
Human Evaluation of Conceptual Route Graphs for Interpreting Spoken Route Descriptions	Mar 1, 2013	Autonomous NavigationSpeech Recognition	—Unverified
Acoustic, Phonetic and Prosodic Features of Parkinson's disease Speech	Jan 1, 2013	Speech Recognition	—Unverified
Minimally-Supervised Morphological Segmentation using Adaptor Grammars	Jan 1, 2013	Machine TranslationModel Selection	—Unverified
Incremental Tree Substitution Grammar for Parsing and Sentence Prediction	Jan 1, 2013	Language ModelingLanguage Modelling	—Unverified
語音辨識使用統計圖等化方法 (Speech Recognition Leveraging Histogram Equalization Methods) [In Chinese]	Dec 1, 2012	speech-recognitionSpeech Recognition	—Unverified
Statistical Method of Building Dialect Language Models for ASR Systems	Dec 1, 2012	Language ModellingSpeech Recognition	—Unverified
Language Modeling for Spoken Dialogue System based on Filtering using Predicate-Argument Structures	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Lattice Rescoring for Speech Recognition using Large Scale Distributed Language Models	Dec 1, 2012	Language Modellingspeech-recognition	—Unverified
Code-Switch Language Model with Inversion Constraints for Mixed Language Speech Recognition	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Detection of Acoustic-Phonetic Landmarks in Mismatched Conditions using a Biomimetic Model of Human Auditory Processing	Dec 1, 2012	Speech Recognition	—Unverified
Factored Language Model based on Recurrent Neural Network	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Automatic pronunciation assessment for language learners with acoustic-phonetic features	Dec 1, 2012	Speech Recognition	—Unverified
Romanized Arabic Transliteration	Dec 1, 2012	Machine TranslationSpeech Recognition	—Unverified
A Conditional Random Field-based Traditional Chinese Base Phrase Parser for SIGHAN Bake-off 2012 Evaluation	Dec 1, 2012	ChunkingLanguage Modelling	—Unverified
Automatic Pronunciation Scoring And Mispronunciation Detection Using CMUSphinx	Dec 1, 2012	Speech Recognition	—Unverified
Using English Acoustic Models for Hindi Automatic Speech Recognition	Dec 1, 2012	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Large Scale Distributed Deep Networks	Dec 1, 2012	CPUObject Recognition	—Unverified
Sequence Transduction with Recurrent Neural Networks	Nov 14, 2012	Machine TranslationPhoneme Recognition	CodeCode Available
Deep Neural Networks for Acoustic Modeling in Speech Recognition	Nov 1, 2012	speech-recognitionSpeech Recognition	—Unverified
Classifying Dialogue Acts in Multi-party Live Chats	Nov 1, 2012	Dialogue Act ClassificationSpeech Recognition	—Unverified
Towards a Semantic Annotation of English Television News - Building and Evaluating a Constraint Grammar FrameNet	Nov 1, 2012	Machine TranslationSpeech Recognition	—Unverified
A CRF Sequence Labeling Approach to Chinese Punctuation Prediction	Nov 1, 2012	Machine TranslationSpeech Recognition	—Unverified
遞迴式類神經網路語言模型應用額外資訊於語音辨識之研究 (Recurrent Neural Network-based Language Modeling with Extra Information Cues for Speech Recognition) [In Chinese]	Sep 1, 2012	Language ModelingLanguage Modelling	—Unverified
A Possibilistic Approach for Automatic Word Sense Disambiguation	Sep 1, 2012	Information RetrievalOptical Character Recognition (OCR)	—Unverified
改良式統計圖等化法強鍵性語音辨識之研究 (Improved Histogram Equalization Methods for Robust Speech Recognition) [In Chinese]	Sep 1, 2012	Robust Speech Recognitionspeech-recognition	—Unverified
Incremental Derivations in CCG	Sep 1, 2012	Machine TranslationSpeech Recognition	—Unverified
Incremental Neo-Davidsonian semantic construction for TAG	Sep 1, 2012	Speech RecognitionSpoken Dialogue Systems	—Unverified
Finite-State Acoustic and Translation Model Composition in Statistical Speech Translation: Empirical Assessment	Jul 1, 2012	Speech RecognitionTranslation	—Unverified
A Methodology for Obtaining Concept Graphs from Word Graphs	Jul 1, 2012	Language ModellingSpeech Recognition	—Unverified
Towards a Self-Learning Assistive Vocal Interface: Vocabulary and Grammar Learning	Jul 1, 2012	Self-LearningSpeech Recognition	—Unverified
WFST-Based Grapheme-to-Phoneme Conversion: Open Source tools for Alignment, Model-Building and Decoding	Jul 1, 2012	Grapheme-to-Phoneme ConversionLanguage Modelling	—Unverified
A GrAF-compliant Indonesian Speech Recognition Web Service on the Language Grid for Transcription Crowdsourcing	Jul 1, 2012	speech-recognitionSpeech Recognition	—Unverified
Reduction of Non-stationary Noise for a Robotic Living Assistant using Sparse Non-negative Matrix Factorization	Jul 1, 2012	DenoisingSpeech Recognition	—Unverified
Integrating Incremental Speech Recognition and POMDP-Based Dialogue Systems	Jul 1, 2012	Dialogue Managementspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 126 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified