Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 6433 papers

Title	Date	Tasks	Status	Hype
Joint Masked CPC and CTC Training for ASR	Oct 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Kaleidoscope: An Efficient, Learnable Representation For All Structured Linear Maps	Dec 29, 2020	Allimage-classification	CodeCode Available	1
CB-Conformer: Contextual biasing Conformer for biased word recognition	Apr 19, 2023	Automatic Speech RecognitionLanguage Modeling	CodeCode Available	1
Knowledge Distillation from BERT Transformer to Speech Transformer for Intent Classification	Aug 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Kosp2e: Korean Speech to English Translation Corpus	Jul 6, 2021	speech-recognitionSpeech Recognition	CodeCode Available	1
KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition	Sep 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command Recognition	Jun 1, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Advancing Test-Time Adaptation in Wild Acoustic Test Settings	Oct 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Can we use Common Voice to train a Multi-Speaker TTS system?	Oct 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CAPE: Encoding Relative Positions with Continuous Augmented Positional Embeddings	Jun 6, 2021	Machine Translationspeech-recognition	CodeCode Available	1
CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition	May 27, 2019	DecoderLanguage Modelling	CodeCode Available	1
Late reverberation suppression using U-nets	Oct 5, 2021	DecoderSpeech Dereverberation	CodeCode Available	1
Adaptation of Whisper models to child speech recognition	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Layer-wise Analysis of a Self-supervised Speech Representation Model	Jul 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Framework for Curating Speech Datasets and Evaluating ASR Systems: A Case Study for Polish	Jul 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures	Jul 27, 2023	Automatic Speech RecognitionContrastive Learning	CodeCode Available	1
Learning to Detect Noisy Labels Using Model-Based Features	Dec 28, 2022	Meta-Learningspeech-recognition	CodeCode Available	1
Learning to Rank Microphones for Distant Speech Recognition	Apr 6, 2021	channel selectionDecoder	CodeCode Available	1
Less Peaky and More Accurate CTC Forced Alignment by Label Priors	Apr 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Calibrating Transformers via Sparse Gaussian Processes	Mar 4, 2023	Bayesian InferenceGaussian Processes	CodeCode Available	1
Low-Latency Speech Separation Guided Diarization for Telephone Conversations	Apr 5, 2022	Action DetectionActivity Detection	CodeCode Available	1
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Adapting End-to-End Speech Recognition for Readable Subtitles	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A context-aware knowledge transferring strategy for CTC-based ASR	Oct 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Can Contextual Biasing Remain Effective with Whisper and GPT-2?	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT	Mar 29, 2022	AllAutomatic Speech Recognition	CodeCode Available	1
Brouhaha: multi-task training for voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation	Oct 24, 2022	Action DetectionActivity Detection	CodeCode Available	1
Bridging the Granularity Gap for Acoustic Modeling	May 27, 2023	speech-recognitionSpeech Recognition	CodeCode Available	1
Byakto Speech: Real-time long speech synthesis with convolutional neural network: Transfer learning from English to Bangla	May 31, 2021	Deep Learningspeech-recognition	CodeCode Available	1
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition	Mar 6, 2020	LipreadingLip Reading	CodeCode Available	1
Losses Can Be Blessings: Routing Self-Supervised Speech Representations Towards Efficient Multilingual and Multitask Speech Processing	Nov 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation	May 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Computer-Generated Music for Tabletop Role-Playing Games	Aug 16, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Deep Compressive Offloading: Speeding Up Neural Network Inference by Trading Edge Computation for Network Latency	Nov 16, 2020	Compressive SensingEdge-computing	CodeCode Available	1
MathSpeech: Leveraging Small LMs for Accurate Conversion in Mathematical Speech-to-Formula	Dec 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
MediaSpeech: Multilanguage ASR Benchmark and Dataset	Mar 30, 2021	speech-recognitionSpeech Recognition	CodeCode Available	1
MelHuBERT: A simplified HuBERT on Mel spectrograms	Nov 17, 2022	Automatic Speech RecognitionSelf-Supervised Learning	CodeCode Available	1
BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing	Sep 2, 2023	speech-recognitionSpeech Recognition	CodeCode Available	1
Meta-Transfer Learning for Code-Switched Speech Recognition	Apr 29, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models	Dec 5, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition	Jun 18, 2023	Audio-Visual Speech RecognitionRepresentation Learning	CodeCode Available	1
BrainBERT: Self-supervised representation learning for intracranial recordings	Feb 28, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Monotonic Chunkwise Attention	Dec 14, 2017	Document Summarizationspeech-recognition	CodeCode Available	1
BIG-C: a Multimodal Multi-Purpose Dataset for Bemba	May 26, 2023	Machine Translationspeech-recognition	CodeCode Available	1
Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement	Jun 6, 2024	DiversitySpeech Enhancement	CodeCode Available	1
BembaSpeech: A Speech Recognition Corpus for the Bemba Language	Feb 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
BASPRO: a balanced script producer for speech corpus collection based on the genetic algorithm	Dec 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
BENDR: using transformers and a contrastive self-supervised learning task to learn from massive amounts of EEG data	Jan 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
BackdoorMBTI: A Backdoor Learning Multimodal Benchmark Tool Kit for Backdoor Defense Evaluation	Nov 17, 2024	Action Recognitionbackdoor defense	CodeCode Available	1

Show:10 25 50

← PrevPage 9 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified