Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4451–4500 of 6433 papers

Title	Date	Tasks	Status	Hype
Motivations, challenges, and perspectives for the development of an Automatic Speech Recognition System for the under-resourced Ngiemboon Language	Sep 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Garnishing a phonetic dictionary for ASR intake	Sep 1, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Dialect-Specific Models for Automatic Speech Recognition of African American Vernacular English	Sep 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Semantic Language Model for Tunisian Dialect	Sep 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Human-Informed Speakers and Interpreters Analysis in the WAW Corpus and an Automatic Method for Calculating Interpreters' D\'ecalage	Sep 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Accurate Text Verbalization for ASR Based on Audio Alignment	Sep 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Probabilistic Approach for Confidence Scoring in Speech Recognition	Sep 1, 2019	speech-recognitionSpeech Recognition	—Unverified	0
The Ambiguous World of Emotion Representation	Sep 1, 2019	Face RecognitionSpeaker Verification	—Unverified	0
EBPC: Extended Bit-Plane Compression for Deep Neural Network Inference and Training Accelerators	Aug 30, 2019	image-classificationImage Classification	CodeCode Available	0
Estimation of a function of low local dimensionality by deep neural networks	Aug 29, 2019	Dimensionality Reductionobject-detection	—Unverified	0
Two-Pass End-to-End Speech Recognition	Aug 29, 2019	speech-recognitionSpeech Recognition	CodeCode Available	0
MASR: A Modular Accelerator for Sparse RNNs	Aug 23, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Self-reinforcing Unsupervised Matching	Aug 23, 2019	Continual LearningDiversity	—Unverified	0
Deploying Technology to Save Endangered Languages	Aug 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Gender Representation in French Broadcast Corpora and Its Impact on ASR Performance	Aug 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
AI and Accessibility: A Discussion of Ethical Considerations	Aug 21, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Towards Better Understanding of Spontaneous Conversations: Overcoming Automatic Speech Recognition Errors With Intent Recognition	Aug 21, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Two-Staged Acoustic Modeling Adaption for Robust Speech Recognition by the Example of German Oral History Interviews	Aug 19, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-to-End Multi-Speaker Speech Recognition using Speaker Embeddings and Transfer Learning	Aug 13, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
IMS-Speech: A Speech to Text Tool	Aug 13, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Personal VAD: Speaker-Conditioned Voice Activity Detection	Aug 12, 2019	Action DetectionActivity Detection	CodeCode Available	0
Space-time error estimates for deep neural network approximations for differential equations	Aug 11, 2019	Articlesimage-classification	—Unverified	0
Unsupervised Stemming based Language Model for Telugu Broadcast News Transcription	Aug 10, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Emotionless: Privacy-Preserving Speech Analysis for Voice Assistants	Aug 9, 2019	Emotion RecognitionPrivacy Preserving	CodeCode Available	1
Exploiting Cross-Lingual Speaker and Phonetic Diversity for Unsupervised Subword Modeling	Aug 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Challenging the Boundaries of Speech Recognition: The MALACH Corpus	Aug 9, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Exploiting semi-supervised training through a dropout regularization in end-to-end speech recognition	Aug 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Mitigating Noisy Inputs for Question Answering	Aug 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Fast and Accurate Capitalization and Punctuation for Automatic Speech Recognition Using Transformer and Chunk Merging	Aug 7, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An End-to-End Text-independent Speaker Verification Framework with a Keyword Adversarial Network	Aug 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Practical Speech Recognition with HTK	Aug 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Random Directional Attack for Fooling Deep Neural Networks	Aug 6, 2019	speech-recognitionSpeech Recognition	CodeCode Available	0
Imperio: Robust Over-the-Air Adversarial Examples for Automatic Speech Recognition Systems	Aug 5, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
V2S attack: building DNN-based voice conversion from automatic speaker verification	Aug 5, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SANTLR: Speech Annotation Toolkit for Low Resource Languages	Aug 2, 2019	speech-recognitionSpeech Recognition	—Unverified	0
DELTA: A DEep learning based Language Technology plAtform	Aug 2, 2019	Abstractive Text SummarizationDeep Learning	CodeCode Available	0
Multilingual Speech Recognition with Corpus Relatedness Sampling	Aug 2, 2019	speech-recognitionSpeech Recognition	—Unverified	0
A Speech Test Set of Practice Business Presentations with Additional Relevant Texts	Aug 2, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Toward Automated Content Feedback Generation for Non-native Spontaneous Speech	Aug 1, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Learning Joint Acoustic-Phonetic Word Embeddings	Aug 1, 2019	Binary ClassificationGeneral Classification	—Unverified	0
Speech Recognition for Tigrinya language Using Deep Neural Network Approach	Aug 1, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Personalizing ASR for Dysarthric and Accented Speech with Limited Data	Jul 31, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
DuTongChuan: Context-aware Translation Model for Simultaneous Interpreting	Jul 30, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MaSS: A Large and Clean Multilingual Corpus of Sentence-aligned Spoken Utterances Extracted from the Bible	Jul 30, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Multi-Frame Cross-Entropy Training for Convolutional Neural Networks in Speech Recognition	Jul 29, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Correlation Distance Skip Connection Denoising Autoencoder (CDSK-DAE) for Speech Feature Enhancement	Jul 26, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A comparison of Deep Learning performances with other machine learning algorithms on credit scoring unbalanced data	Jul 25, 2019	BIG-bench Machine LearningDeep Learning	—Unverified	0
Cross-Attention End-to-End ASR for Two-Party Conversations	Jul 24, 2019	speech-recognitionSpeech Recognition	—Unverified	0
2D-CTC for Scene Text Recognition	Jul 23, 2019	DecoderScene Text Recognition	—Unverified	0
Deep Learning to Address Candidate Generation and Cold Start Challenges in Recommender Systems: A Research Survey	Jul 17, 2019	Deep LearningRecommendation Systems	—Unverified	0

Show:10 25 50

← PrevPage 90 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified