Speech-to-Text Translation

Translate audio signals of speech in one language into text in a foreign language, either in an end-to-end or cascade manner.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 146 papers

Title	Date	Tasks	Status
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing	Sep 27, 2023	DecoderMachine Translation	—Unverified
CTC Alignments Improve Autoregressive Translation	Oct 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Data Efficient Direct Speech-to-Text Translation with Modality Agnostic Meta-Learning	Nov 11, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Decision Attentive Regularization to Improve Simultaneous Speech Translation Systems	Oct 13, 2021	SentenceSimultaneous Speech-to-Text Translation	—Unverified
Direct Simultaneous Speech-to-Text Translation Assisted by Synchronized Streaming ASR	Jun 11, 2021	Simultaneous Speech-to-Text TranslationSpeech-to-Text	—Unverified
Efficient Monotonic Multihead Attention	Dec 7, 2023	Simultaneous Speech-to-Text TranslationSpeech-to-Text	—Unverified
End-to-End Offline Speech Translation System for IWSLT 2020 using Modality Agnostic Meta-Learning	Jul 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Speech-to-Text Translation: A Survey	Dec 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data	Jun 19, 2025	SentenceSpeech-to-Text	—Unverified
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation	Apr 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Speech-to-Speech Translation with Multiple TTS Targets	Apr 10, 2023	Speech-to-Speech TranslationSpeech-to-Text	—Unverified
Enhancing Transformer for End-to-end Speech-to-Text Translation	Aug 1, 2019	Speech-to-TextSpeech-to-Text Translation	—Unverified
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit	Apr 10, 2023	BenchmarkingSimultaneous Speech-to-Text Translation	—Unverified
Europarl-ST: A Multilingual Corpus For Speech Translation Of Parliamentary Debates	Nov 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation	Jul 4, 2024	Machine Translationspeech-recognition	—Unverified
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?	Dec 24, 2024	Simultaneous Speech-to-Text TranslationSpeech-to-Text	—Unverified
Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks	May 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Cross-Lingual Transfer Learning For Automatic Speech Translation	Jun 1, 2023	automatic-speech-translationCross-Lingual Transfer	—Unverified
SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation	Jun 20, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified
SimulSpeech: End-to-End Simultaneous Speech to Text Translation	Jul 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SpeechAlign: a Framework for Speech Translation Alignment Evaluation	Sep 20, 2023	Speech-to-TextSpeech-to-Text Translation	—Unverified
Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?	Oct 31, 2024	Rhythmspeech-recognition	—Unverified
Speech to Speech Translation with Translatotron: A State of the Art Review	Feb 9, 2025	speech-recognitionSpeech Recognition	—Unverified
Speech-to-Text Translation with Phoneme-Augmented CoT: Enhancing Cross-Lingual Transfer in Low-Resource Scenarios	May 30, 2025	Cross-Lingual TransferPhoneme Recognition	—Unverified

Show:10 25 50

← PrevPage 4 of 6Next →

All datasets MuST-C EN->DE MuST-C EN->ES MuST-C EN->FR CoVoST 2 eng-X CoVoST 2 X-eng FLEURS eng-X FLEURS X-eng libri-trans MediBeng MuST-C MuST-C EN->NL

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Task Modulation + Multitask Learning(ASR/MT) + Data Augmentation	Case-sensitive sacreBLEU	28.88	—	Unverified
2	Wav2Vec2.0+mBART+Adaptors	Case-sensitive sacreBLEU	28.22	—	Unverified
3	Transformer + Meta Learning(ASR/MT) + Data Augmentation	Case-sensitive sacreBLEU	27.51	—	Unverified
4	Transformer with Adapters	Case-sensitive sacreBLEU	24.63	—	Unverified
5	Dual-decoder Transformer	Case-sensitive sacreBLEU	23.63	—	Unverified
6	Speechformer	Case-sensitive sacreBLEU	23.6	—	Unverified
7	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	22.8	—	Unverified
8	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	22.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer with Adapters	Case-sensitive sacreBLEU	28.73	—	Unverified
2	Speechformer	Case-sensitive sacreBLEU	28.5	—	Unverified
3	Dual-decoder Transformer	Case-sensitive sacreBLEU	28.12	—	Unverified
4	Transformer + ASR Pretrain + SpecAug	Case-sensitive sacreBLEU	27.4	—	Unverified
5	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	26.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual-decoder Transformer	Case-sensitive sacreBLEU	33.45	—	Unverified
2	Transformer + ASR Pretrain + SpecAug	Case-sensitive sacreBLEU	33.3	—	Unverified
3	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	32.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	30.6	—	Unverified
2	SeamlessM4T Medium	BLEU	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	34.1	—	Unverified
2	SeamlessM4T Medium	BLEU	29.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	21.5	—	Unverified
2	SeamlessM4T Medium	BLEU	19.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	24	—	Unverified
2	SeamlessM4T Medium	BLEU	20.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer + ASR Pretrain + SpecAug	Case-insensitive sacreBLEU	17.2	—	Unverified
2	Transformer + ASR Pretrain	Case-insensitive sacreBLEU	16.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MediBeng Whisper Tiny	Bleu	0.98	—	Unverified
2	Whisper Tiny	Bleu	0.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer with Adapters	SacreBLEU	26.61	—	Unverified
2	Dual-decoder Transformer	SacreBLEU	25.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Speechformer	Case-sensitive sacreBLEU	27.7	—	Unverified