Speech-to-Text Translation

Translate audio signals of speech in one language into text in a foreign language, either in an end-to-end or cascade manner.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 146 papers

Title	Date	Tasks	Status	Score
Augmenting Librispeech with French Translations: A Multimodal Corpus for Direct Speech Translation Evaluation	Feb 9, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Pre-training on high-resource speech recognition improves low-resource speech-to-text translation	Sep 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
An Empirical Study of Consistency Regularization for End-to-End Speech-to-Text Translation	Aug 28, 2023	Machine TranslationNMT	CodeCode Available	5
Direct speech-to-speech translation with a sequence-to-sequence model	Apr 12, 2019	Speech SynthesisSpeech-to-Speech Translation	CodeCode Available	5
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation	Jul 3, 2022	DecoderSpeech-to-Text	CodeCode Available	5
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects	Jun 27, 2024	Automatic Speech RecognitionMachine Translation	CodeCode Available	5
fairseq S2T: Fast Speech-to-Text Modeling with fairseq	Oct 11, 2020	Machine TranslationMulti-Task Learning	CodeCode Available	5
On decoder-only architecture for speech-to-text and large language model integration	Jul 8, 2023	DecoderLanguage Modeling	—Unverified	0
Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling	Jun 21, 2021	speech-recognitionSpeech Recognition	—Unverified	0
Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases	Feb 1, 2024	speech-recognitionSpeech Recognition	—Unverified	0
Recent Advances in Direct Speech-to-text Translation	Jun 20, 2023	Data AugmentationDecoder	—Unverified	0
Representation Purification for End-to-End Speech Translation	Dec 5, 2024	Machine TranslationRhythm	—Unverified	0
Revisiting End-to-End Speech-to-Text Translation From Scratch	Jun 9, 2022	Decoderspeech-recognition	—Unverified	0
Robust Semantic Communications for Speech Transmission	Mar 8, 2024	Generative Adversarial NetworkSemantic Communication	—Unverified	0
S2ST-Omni: An Efficient and Scalable Multilingual Speech-to-Speech Translation Framework via Seamless Speech-Text Alignment and Streaming Speech Generation	Jun 11, 2025	Reading ComprehensionSpeech Synthesis	—Unverified	0
SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation	May 17, 2022	Representation LearningRetrieval	—Unverified	0
Self-Supervised Representations Improve End-to-End Speech Translation	Jun 22, 2020	Cross-Lingual Transferspeech-recognition	—Unverified	0
Simple and Effective Unsupervised Speech Translation	Oct 18, 2022	Domain AdaptationMachine Translation	—Unverified	0
SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation	Jun 20, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
SimulSpeech: End-to-End Simultaneous Speech to Text Translation	Jul 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SpeechAlign: a Framework for Speech Translation Alignment Evaluation	Sep 20, 2023	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?	Oct 31, 2024	Rhythmspeech-recognition	—Unverified	0
Speech to Speech Translation with Translatotron: A State of the Art Review	Feb 9, 2025	speech-recognitionSpeech Recognition	—Unverified	0
Speech-to-Text Translation with Phoneme-Augmented CoT: Enhancing Cross-Lingual Transfer in Low-Resource Scenarios	May 30, 2025	Cross-Lingual TransferPhoneme Recognition	—Unverified	0
Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing?	Feb 19, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
Strategies for improving low resource speech to text translation relying on pre-trained ASR models	May 31, 2023	Automatic Speech RecognitionDecoder	—Unverified	0
StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection	Jun 10, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
Subtitles to Segmentation: Improving Low-Resource Speech-to-TextTranslation Pipelines	May 1, 2020	Cross-Lingual Information RetrievalInformation Retrieval	—Unverified	0
Subtitles to Segmentation: Improving Low-Resource Speech-to-Text Translation Pipelines	Oct 19, 2020	Cross-Lingual Information RetrievalInformation Retrieval	—Unverified	0
TASK AWARE MULTI-TASK LEARNING FOR SPEECH TO TEXT TASKS	Jun 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The USFD Spoken Language Translation System for IWSLT 2014	Sep 13, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Measuring Fairness in AI: the Casual Conversations Dataset	Apr 6, 2021	Age And Gender ClassificationDeepFake Detection	—Unverified	0
Towards speech-to-text translation without speech recognition	Feb 13, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards the evaluation of automatic simultaneous speech translation from a communicative perspective	Mar 15, 2021	automatic-speech-translationInformativeness	—Unverified	0
Towards Unsupervised Speech-to-Text Translation	Nov 4, 2018	DenoisingLanguage Modeling	—Unverified	0
Unsupervised Cross-Modal Alignment of Speech and Text Embedding Spaces	May 18, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unveiling the Role of Pretraining in Direct Speech Translation	Sep 26, 2024	Automatic Speech RecognitionDecoder	—Unverified	0
Using of heterogeneous corpora for training of an ASR system	Jun 1, 2017	speech-recognitionSpeech Recognition	—Unverified	0
When End-to-End is Overkill: Rethinking Cascaded Speech-to-Text Translation	Feb 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
XTREME-S: Evaluating Cross-lingual Speech Representations	Mar 21, 2022	Representation LearningRetrieval	—Unverified	0
A Comparative Study on End-to-end Speech to Text Translation	Nov 20, 2019	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation	Mar 18, 2025	DecoderSpeech-to-Text	—Unverified	0
Analyzing ASR pretraining for low-resource speech-to-text translation	Oct 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Experiment on Speech-to-Text Translation Systems for Manipuri to English on Low Resource Setting	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Survey on Speech Large Language Models	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
AudioPaLM: A Large Language Model That Can Speak and Listen	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
Balancing Speech Understanding and Generation Using Continual Pre-training for Codec-based Speech LLM	Feb 24, 2025	Automatic Speech RecognitionLanguage Modeling	—Unverified	0
Bridging the Modality Gap for Speech-to-Text Translation	Oct 28, 2020	DecoderSpeech-to-Text	—Unverified	0
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?	Jun 11, 2024	Contrastive LearningSpeech Synthesis	—Unverified	0
Cross-lingual topic prediction for speech using translations	Aug 29, 2019	HumanitarianPrediction	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets MuST-C EN->DE MuST-C EN->ES MuST-C EN->FR CoVoST 2 eng-X CoVoST 2 X-eng FLEURS eng-X FLEURS X-eng libri-trans MediBeng MuST-C MuST-C EN->NL

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Task Modulation + Multitask Learning(ASR/MT) + Data Augmentation	Case-sensitive sacreBLEU	28.88	—	Unverified
2	Wav2Vec2.0+mBART+Adaptors	Case-sensitive sacreBLEU	28.22	—	Unverified
3	Transformer + Meta Learning(ASR/MT) + Data Augmentation	Case-sensitive sacreBLEU	27.51	—	Unverified
4	Transformer with Adapters	Case-sensitive sacreBLEU	24.63	—	Unverified
5	Dual-decoder Transformer	Case-sensitive sacreBLEU	23.63	—	Unverified
6	Speechformer	Case-sensitive sacreBLEU	23.6	—	Unverified
7	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	22.8	—	Unverified
8	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	22.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer with Adapters	Case-sensitive sacreBLEU	28.73	—	Unverified
2	Speechformer	Case-sensitive sacreBLEU	28.5	—	Unverified
3	Dual-decoder Transformer	Case-sensitive sacreBLEU	28.12	—	Unverified
4	Transformer + ASR Pretrain + SpecAug	Case-sensitive sacreBLEU	27.4	—	Unverified
5	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	26.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual-decoder Transformer	Case-sensitive sacreBLEU	33.45	—	Unverified
2	Transformer + ASR Pretrain + SpecAug	Case-sensitive sacreBLEU	33.3	—	Unverified
3	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	32.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	30.6	—	Unverified
2	SeamlessM4T Medium	BLEU	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	34.1	—	Unverified
2	SeamlessM4T Medium	BLEU	29.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	21.5	—	Unverified
2	SeamlessM4T Medium	BLEU	19.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	24	—	Unverified
2	SeamlessM4T Medium	BLEU	20.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer + ASR Pretrain + SpecAug	Case-insensitive sacreBLEU	17.2	—	Unverified
2	Transformer + ASR Pretrain	Case-insensitive sacreBLEU	16.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MediBeng Whisper Tiny	Bleu	0.98	—	Unverified
2	Whisper Tiny	Bleu	0.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer with Adapters	SacreBLEU	26.61	—	Unverified
2	Dual-decoder Transformer	SacreBLEU	25.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Speechformer	Case-sensitive sacreBLEU	27.7	—	Unverified