Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6276–6300 of 6433 papers

Title	Date	Tasks	Status
Code-Switch Language Model with Inversion Constraints for Mixed Language Speech Recognition	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Language Modeling for Spoken Dialogue System based on Filtering using Predicate-Argument Structures	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Statistical Method of Building Dialect Language Models for ASR Systems	Dec 1, 2012	Language ModellingSpeech Recognition	—Unverified
Detection of Acoustic-Phonetic Landmarks in Mismatched Conditions using a Biomimetic Model of Human Auditory Processing	Dec 1, 2012	Speech Recognition	—Unverified
Automatic Pronunciation Scoring And Mispronunciation Detection Using CMUSphinx	Dec 1, 2012	Speech Recognition	—Unverified
Automatic pronunciation assessment for language learners with acoustic-phonetic features	Dec 1, 2012	Speech Recognition	—Unverified
語音辨識使用統計圖等化方法 (Speech Recognition Leveraging Histogram Equalization Methods) [In Chinese]	Dec 1, 2012	speech-recognitionSpeech Recognition	—Unverified
A Conditional Random Field-based Traditional Chinese Base Phrase Parser for SIGHAN Bake-off 2012 Evaluation	Dec 1, 2012	ChunkingLanguage Modelling	—Unverified
Sequence Transduction with Recurrent Neural Networks	Nov 14, 2012	Machine TranslationPhoneme Recognition	CodeCode Available
Deep Neural Networks for Acoustic Modeling in Speech Recognition	Nov 1, 2012	speech-recognitionSpeech Recognition	—Unverified
Classifying Dialogue Acts in Multi-party Live Chats	Nov 1, 2012	Dialogue Act ClassificationSpeech Recognition	—Unverified
A CRF Sequence Labeling Approach to Chinese Punctuation Prediction	Nov 1, 2012	Machine TranslationSpeech Recognition	—Unverified
Towards a Semantic Annotation of English Television News - Building and Evaluating a Constraint Grammar FrameNet	Nov 1, 2012	Machine TranslationSpeech Recognition	—Unverified
Incremental Neo-Davidsonian semantic construction for TAG	Sep 1, 2012	Speech RecognitionSpoken Dialogue Systems	—Unverified
遞迴式類神經網路語言模型應用額外資訊於語音辨識之研究 (Recurrent Neural Network-based Language Modeling with Extra Information Cues for Speech Recognition) [In Chinese]	Sep 1, 2012	Language ModelingLanguage Modelling	—Unverified
改良式統計圖等化法強鍵性語音辨識之研究 (Improved Histogram Equalization Methods for Robust Speech Recognition) [In Chinese]	Sep 1, 2012	Robust Speech Recognitionspeech-recognition	—Unverified
A Possibilistic Approach for Automatic Word Sense Disambiguation	Sep 1, 2012	Information RetrievalOptical Character Recognition (OCR)	—Unverified
Incremental Derivations in CCG	Sep 1, 2012	Machine TranslationSpeech Recognition	—Unverified
IRIS: a Chat-oriented Dialogue System based on the Vector Space Model	Jul 1, 2012	Question AnsweringSpeech Recognition	—Unverified
The Effect of Cognitive Load on a Statistical Dialogue System	Jul 1, 2012	Speech Recognition	—Unverified
Assessment of ESL Learners' Syntactic Competence Based on Similarity Measures	Jul 1, 2012	Speech Recognition	—Unverified
Probabilistic Dialogue Models with Prior Domain Knowledge	Jul 1, 2012	Dialogue ManagementSemantic Parsing	—Unverified
Universal Grapheme-to-Phoneme Prediction Over Latin Alphabets	Jul 1, 2012	PredictionSpeech Recognition	—Unverified
Mixing Multiple Translation Models in Statistical Machine Translation	Jul 1, 2012	Domain AdaptationLanguage Modelling	—Unverified
Fast and Scalable Decoding with Language Model Look-Ahead for Phrase-based Statistical Machine Translation	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 252 of 258Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN MMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN BMMI	Percentage error	12.9	—	Unverified
9	DNN MPE	Percentage error	12.9	—	Unverified
10	Deep Speech + FSH	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
5	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified