Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 6433 papers

Title	Date	Tasks	Status	Hype	Score
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens	Jul 7, 2024	Language ModellingLarge Language Model	CodeCode Available	11	5
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training	May 23, 2025	Automatic Speech RecognitionEmotion Recognition	CodeCode Available	11	5
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs	Jul 4, 2024	Emotion RecognitionEvent Detection	CodeCode Available	11	5
Moonshine: Speech Recognition for Live Transcription and Voice Commands	Oct 21, 2024	DecoderPosition	CodeCode Available	9	5
Moshi: a speech-text foundation model for real-time dialogue	Sep 17, 2024	Action DetectionActivity Detection	CodeCode Available	9	5
Robust Speech Recognition via Large-Scale Weak Supervision	Dec 6, 2022	Robust Speech Recognitionspeech-recognition	CodeCode Available	8	5
Adapting Large Language Model with Speech for Fully Formatted End-to-End Speech Recognition	Jul 17, 2023	DecoderLanguage Modeling	CodeCode Available	8	5
Speechless: Speech Instruction Training Without Speech for Low Resource Languages	May 23, 2025	speech-recognitionSpeech Recognition	CodeCode Available	7	5
Scaling Speech-Text Pre-training with Synthetic Interleaved Data	Nov 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	7	5
GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot	Dec 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	7	5
Qwen2.5-Omni Technical Report	Mar 26, 2025	Automatic Speech Recognition (ASR)GSM8K	CodeCode Available	7	5
Kimi-Audio Technical Report	Apr 25, 2025	Audio Question AnsweringQuestion Answering	CodeCode Available	7	5
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant	Oct 20, 2024	Question Answeringspeech-recognition	CodeCode Available	7	5
OxfordVGG Submission to the EGO4D AV Transcription Challenge	Jul 18, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	6	5
PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit	May 20, 2022	AllAutomatic Speech Recognition (ASR)	CodeCode Available	6	5
StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning	Jun 5, 2024	Automatic Speech Recognition (ASR)de-en	CodeCode Available	5	5
WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit	Mar 29, 2022	DecoderLanguage Modelling	CodeCode Available	5	5
FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration	Jan 24, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5	5
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	4	5
The Llama 3 Herd of Models	Jul 31, 2024	answerability predictionLanguage Modeling	CodeCode Available	4	5
Turning Whisper into Real-Time Transcription System	Jul 27, 2023	speech-recognitionSpeech Recognition	CodeCode Available	4	5
GigaAM: Efficient Self-Supervised Learner for Speech Recognition	Jun 1, 2025	Automatic Speech RecognitionLanguage Modeling	CodeCode Available	4	5
CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions	Aug 29, 2024	Dynamic Time Warpingspeech-recognition	CodeCode Available	4	5
Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages	Mar 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	4	5
Acoustic modeling for Overlapping Speech Recognition: JHU Chime-5 Challenge System	May 17, 2024	Data AugmentationSpeech Dereverberation	CodeCode Available	4	5
SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech Recognition Evaluation	Mar 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	4	5
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling	Nov 1, 2023	HallucinationKnowledge Distillation	CodeCode Available	4	5
TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch	Oct 27, 2023	Self-Supervised LearningSpeech Enhancement	CodeCode Available	4	5
Multi-head Temporal Latent Attention	May 19, 2025	GPUspeech-recognition	CodeCode Available	4	5
A Survey on Vision-Language-Action Models for Embodied AI	May 23, 2024	Image CaptioningInstruction Following	CodeCode Available	4	5
VoiceBench: Benchmarking LLM-Based Voice Assistants	Oct 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement	Jun 17, 2024	speech-recognitionSpeech Recognition	CodeCode Available	3	5
A Parallelizable Lattice Rescoring Strategy with Neural Language Models	Mar 8, 2021	ARCAutomatic Speech Recognition	CodeCode Available	3	5
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
TED-LIUM 3: twice as much data and corpus repartition for experiments on speaker adaptation	May 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play	May 5, 2025	AI AgentAutomatic Speech Recognition	CodeCode Available	3	5
Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models	May 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
Delay-penalized transducer for low-latency streaming ASR	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
Semi-Supervised Speech Recognition via Local Prior Matching	Feb 24, 2020	Knowledge DistillationLanguage Modeling	CodeCode Available	3	5
Datasets: A Community Library for Natural Language Processing	Sep 7, 2021	Image ClassificationObject Recognition	CodeCode Available	3	5
Sentiment Reasoning for Healthcare	Jul 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
SALMONN: Towards Generic Hearing Abilities for Large Language Models	Oct 20, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	3	5
Conformer: Convolution-augmented Transformer for Speech Recognition	May 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
PhoWhisper: Automatic Speech Recognition for Vietnamese	Mar 27, 2024	Automatic Speech Recognitionspeech-recognition	CodeCode Available	3	5
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models	Jan 7, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia	Jan 23, 2025	Emotion RecognitionEvent Detection	CodeCode Available	3	5
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads	Aug 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition	Feb 3, 2025	Audio-Visual Speech RecognitionDecoder	CodeCode Available	3	5
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models	Nov 14, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available	3	5
SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities	May 18, 2023	Language ModelingLanguage Modelling	CodeCode Available	3	5

Show:10 25 50

← PrevPage 1 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN MMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN BMMI	Percentage error	12.9	—	Unverified
9	DNN MPE	Percentage error	12.9	—	Unverified
10	Deep Speech + FSH	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
5	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified