Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4901–4950 of 6433 papers

Title	Date	Tasks	Status
Research Challenges in Building a Voice-based Artificial Personal Shopper - Position Paper	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
會議語音辨識使用語者資訊之語言模型調適技術 (On the Use of Speaker-Aware Language Model Adaptation Techniques for Meeting Speech Recognition ) [In Chinese]	Oct 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
Neural Speech Translation at AppTek	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Estimating Marginal Probabilities of n-grams for Recurrent Neural Language Models	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified
A Morphological Analyzer for Shipibo-Konibo	Oct 1, 2018	LemmatizationMachine Translation	—Unverified
A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding	Oct 1, 2018	Automatic Speech Recognition (ASR)Intent Detection	—Unverified
探討聲學模型的合併技術與半監督鑑別式訓練於會議語音辨識之研究 (Investigating acoustic model combination and semi-supervised discriminative training for meeting speech recognition) [In Chinese]	Oct 1, 2018	Automatic Speech Recognition (ASR)speech-recognition	—Unverified
Improving Neural Language Models with Weight Norm Initialization and Regularization	Oct 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
Using Spoken Word Posterior Features in Neural Machine Translation	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Neural Machine Translation with the Transformer and Multi-Source Romance Languages for the Biomedical WMT 2018 task	Oct 1, 2018	Machine TranslationSpeech Recognition	—Unverified
Joint On-line Learning of a Zero-shot Spoken Semantic Parser and a Reinforcement Learning Dialogue Manager	Oct 1, 2018	Dialogue ManagementManagement	—Unverified
Self-training improves Recurrent Neural Networks performance for Temporal Relation Extraction	Oct 1, 2018	Feature EngineeringMachine Translation	—Unverified
Dual Fixed-Size Ordinally Forgetting Encoding (FOFE) for Competitive Neural Language Models	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Characterizing Audio Adversarial Examples Using Temporal Dependency	Sep 28, 2018	Adversarial DefenseAutomatic Speech Recognition	—Unverified
End-to-End Multi-Lingual Multi-Speaker Speech Recognition	Sep 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-shot Learning for Speech Recognition with Universal Phonetic Model	Sep 27, 2018	speech-recognitionSpeech Recognition	—Unverified
EXPLORATION OF EFFICIENT ON-DEVICE ACOUSTIC MODELING WITH NEURAL NETWORKS	Sep 27, 2018	speech-recognitionSpeech Recognition	—Unverified
Non-native children speech recognition through transfer learning	Sep 25, 2018	speech-recognitionSpeech Recognition	—Unverified
From Audio to Semantics: Approaches to end-to-end spoken language understanding	Sep 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Low Frequency Adversarial Perturbation	Sep 24, 2018	DenoisingSpeech Recognition	CodeCode Available
Hindi-English Code-Switching Speech Corpus	Sep 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Perfect match: Improved cross-modal embeddings for audio-visual synchronisation	Sep 21, 2018	Binary ClassificationCross-Modal Retrieval	—Unverified
Scene Text Recognition from Two-Dimensional Perspective	Sep 18, 2018	Scene Text RecognitionSemantic Segmentation	—Unverified
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Convolutional Neural Network	Sep 17, 2018	Face Recognitionimage-classification	—Unverified
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Neural Network Algorithm	Sep 17, 2018	Image CompressionNovelty Detection	—Unverified
End-to-end Audiovisual Speech Activity Detection with Bimodal Recurrent Neural Models	Sep 12, 2018	Action DetectionActivity Detection	—Unverified
Isolated and Ensemble Audio Preprocessing Methods for Detecting Adversarial Examples against Automatic Speech Recognition	Sep 11, 2018	Adversarial AttackAutomatic Speech Recognition	—Unverified
A proof that artificial neural networks overcome the curse of dimensionality in the numerical approximation of Black-Scholes partial differential equations	Sep 7, 2018	image-classificationImage Classification	—Unverified
End-to-end speech recognition using lattice-free MMI	Sep 6, 2018	speech-recognitionSpeech Recognition	—Unverified
Pre-training on high-resource speech recognition improves low-resource speech-to-text translation	Sep 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Étude de l'informativité des transcriptions : une approche basée sur le résumé automatique	Sep 4, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
HASP: A High-Performance Adaptive Mobile Security Enhancement Against Malicious Speech Recognition	Sep 4, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LRS3-TED: a large-scale dataset for visual speech recognition	Sep 3, 2018	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available
Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks	Sep 2, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Whispered-to-voiced Alaryngeal Speech Conversion with Generative Adversarial Networks	Aug 31, 2018	Speech EnhancementSpeech Recognition	CodeCode Available
AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale	Aug 31, 2018	Chinese Word Segmentationspeech-recognition	—Unverified
End-to-end Speech Recognition with Adaptive Computation Steps	Aug 30, 2018	Decoderspeech-recognition	—Unverified
Learning to adapt: a meta-learning approach for speaker adaptation	Aug 30, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Mean Field Analysis of Neural Networks: A Central Limit Theorem	Aug 28, 2018	Speech Recognition	—Unverified
Augmenting Bottleneck Features of Deep Neural Network Employing Motor State for Speech Recognition at Humanoid Robots	Aug 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WiSeBE: Window-based Sentence Boundary Evaluation	Aug 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Large Margin Neural Language Model	Aug 27, 2018	Language ModelingLanguage Modelling	—Unverified
Role of Intonation in Scoring Spoken English	Aug 23, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fast Spectrogram Inversion using Multi-head Convolutional Neural Networks	Aug 20, 2018	speech-recognitionSpeech Recognition	—Unverified
Linked Recurrent Neural Networks	Aug 19, 2018	Document ClassificationMachine Translation	—Unverified
Identifying Implementation Bugs in Machine Learning based Image Classifiers using Metamorphic Testing	Aug 16, 2018	BIG-bench Machine Learningspeech-recognition	—Unverified
Computing Word Classes Using Spectral Clustering	Aug 16, 2018	ClusteringDependency Parsing	—Unverified
Neural Architecture Search: A Survey	Aug 16, 2018	Machine TranslationNeural Architecture Search	CodeCode Available
Toward domain-invariant speech recognition via large scale training	Aug 16, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 99 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified