Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5801–5850 of 6433 papers

Title	Date	Tasks	Status
Latent Dirichlet Allocation Based Organisation of Broadcast Media Archives for Deep Neural Network Adaptation	Nov 16, 2015	Acoustic ModellingAutomatic Speech Recognition	—Unverified
Neural Programmer: Inducing Latent Programs with Gradient Descent	Nov 16, 2015	Question Answeringspeech-recognition	—Unverified
Learning Representations of Affect from Speech	Nov 15, 2015	DenoisingEmotion Classification	—Unverified
Towards Structured Deep Neural Network for Automatic Speech Recognition	Nov 8, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Highway Long Short-Term Memory RNNs for Distant Speech Recognition	Oct 30, 2015	Distant Speech Recognitionspeech-recognition	—Unverified
Prediction-Adaptation-Correction Recurrent Neural Networks for Low-Resource Language Speech Recognition	Oct 30, 2015	Predictionspeech-recognition	—Unverified
Structured Transforms for Small-Footprint Deep Learning	Oct 6, 2015	Deep LearningKeyword Spotting	—Unverified
Deep convolutional acoustic word embeddings using word-pair side information	Oct 5, 2015	speech-recognitionSpeech Recognition	CodeCode Available
Batch Normalized Recurrent Neural Networks	Oct 5, 2015	Language Modellingspeech-recognition	—Unverified
An Improved Hierarchical Word Sequence Language Model Using Directional Information	Oct 1, 2015	Language ModelingLanguage Modelling	—Unverified
類神經網路訓練結合環境群集及專家混合系統於強健性語音辨識(Automatic Speech Recognition using Neural Network based Acoustic Model with the Environment Clustering and Mixture of Experts Algorithms) [In Chinese]	Oct 1, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Classification of Spoken Languages using Diverse Acoustic Features	Oct 1, 2015	ClassificationGeneral Classification	—Unverified
表示法學習技術於節錄式語音文件摘要之研究(A Study on Representation Learning Techniques for Extractive Spoken Document Summarization) [In Chinese]	Oct 1, 2015	Document SummarizationRepresentation Learning	—Unverified
調變頻譜分解之改良於強健性語音辨識(Several Refinements of Modulation Spectrum Factorization for Robust Speech Recognition) [In Chinese]	Oct 1, 2015	Robust Speech Recognitionspeech-recognition	—Unverified
運用Python結合語音辨識及合成技術於自動化音文同步之實作(A Python Implementation of Automatic Speech-text Synchronization Using Speech Recognition and Text-to-Speech Technology)[In Chinese]	Oct 1, 2015	speech-recognitionSpeech Recognition	—Unverified
使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適(Exploring Word Embedding and Concept Information for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition) [In Chinese]	Oct 1, 2015	Language Modellingspeech-recognition	—Unverified
High-order Graph-based Neural Dependency Parsing	Oct 1, 2015	Dependency ParsingMachine Translation	CodeCode Available
Real-Time Statistical Speech Translation	Sep 30, 2015	Language ModelingLanguage Modelling	—Unverified
Very Deep Multilingual Convolutional Neural Networks for LVCSR	Sep 29, 2015	speech-recognitionSpeech Recognition	—Unverified
Mapping Generative Models onto a Network of Digital Spiking Neurons	Sep 24, 2015	image-classificationImage Classification	—Unverified
Noise-Robust ASR for the third 'CHiME' Challenge Exploiting Time-Frequency Masking based Multi-Channel Speech Enhancement and Recurrent Neural Network	Sep 24, 2015	Language ModelingLanguage Modelling	—Unverified
Automatic Dialect Detection in Arabic Broadcast Speech	Sep 23, 2015	Dialect IdentificationLanguage Identification	CodeCode Available
Noise Robust IOA/CAS Speech Separation and Recognition System For The Third 'CHIME' Challenge	Sep 21, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The USFD Spoken Language Translation System for IWSLT 2014	Sep 13, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised Domain Discovery using Latent Dirichlet Allocation for Acoustic Modelling in Speech Recognition	Sep 8, 2015	Acoustic ModellingAutomatic Speech Recognition	—Unverified
Data-selective Transfer Learning for Multi-Domain Speech Recognition	Sep 8, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancement and Recognition of Reverberant and Noisy Speech by Extending Its Coherence	Sep 2, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automated Speech Recognition Technology for Dialogue Interaction with Non-Native Interlocutors	Sep 1, 2015	speech-recognitionSpeech Recognition	—Unverified
Topic Identification and Discovery on Text and Speech	Sep 1, 2015	Dimensionality ReductionSpeech Recognition	—Unverified
Speech and language technologies for the automatic monitoring and training of cognitive functions	Sep 1, 2015	Keyword SpottingSpeech Recognition	—Unverified
``So, which one is it?'' The effect of alternative incremental architectures in a high-performance game-playing agent	Sep 1, 2015	Decision MakingSpeech Recognition	—Unverified
Human-Machine Dialogue as a Stochastic Game	Sep 1, 2015	Decision MakingMulti-agent Reinforcement Learning	—Unverified
A Dynamic Programming Algorithm for Computing N-gram Posteriors from Lattices	Sep 1, 2015	Language ModellingMachine Translation	—Unverified
Cross-document Event Coreference Resolution based on Cross-media Features	Sep 1, 2015	coreference-resolutionCoreference Resolution	—Unverified
Compact, Efficient and Unlimited Capacity: Language Modeling with Compressed Suffix Trees	Sep 1, 2015	Language ModelingLanguage Modelling	—Unverified
LeBLEU: N-gram-based Translation Evaluation Score for Morphologically Complex Languages	Sep 1, 2015	Machine TranslationSpeech Recognition	—Unverified
Cross-lingual Synonymy Overlap	Sep 1, 2015	Information RetrievalMachine Translation	—Unverified
Qualitative investigation of the display of speech recognition results for communication with deaf people	Sep 1, 2015	Language Modellingspeech-recognition	—Unverified
Evaluating Spoken Dialogue Processing for Time-Offset Interaction	Sep 1, 2015	Speech Recognition	—Unverified
Contour-based Hand Pose Recognition for Sign Language Recognition	Sep 1, 2015	Hand Pose EstimationPose Estimation	—Unverified
Readability Assessment of Translated Texts	Sep 1, 2015	Machine TranslationSpeech Recognition	—Unverified
Remote Speech Technology for Speech Professionals - the CloudCAST initiative	Sep 1, 2015	Speech Recognition	—Unverified
Statistical Machine Translation Improvement based on Phrase Selection	Sep 1, 2015	Language ModellingMachine Translation	—Unverified
Evaluation of Crowdsourced User Input Data for Spoken Dialog Systems	Sep 1, 2015	Speech Recognition	—Unverified
Hierarchical Recurrent Neural Network for Document Modeling	Sep 1, 2015	ChunkingLanguage Modelling	—Unverified
Pronunciation Adaptation For Disordered Speech Recognition Using State-Specific Vectors of Phone-Cluster Adaptive Training	Sep 1, 2015	speech-recognitionSpeech Recognition	—Unverified
An LDA-based Topic Selection Approach to Language Model Adaptation for Handwritten Text Recognition	Sep 1, 2015	Domain AdaptationHandwritten Text Recognition	—Unverified
Reinforcement Learning of Multi-Issue Negotiation Dialogue Policies	Sep 1, 2015	Dialogue Managementreinforcement-learning	—Unverified
Error Analysis and Improving Speech Recognition for Latvian Language	Sep 1, 2015	speech-recognitionSpeech Recognition	—Unverified
Hierarchical Latent Words Language Models for Robust Modeling to Out-Of Domain Tasks	Sep 1, 2015	Language ModellingMachine Translation	—Unverified

Show:10 25 50

← PrevPage 117 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified