Speech-to-Text Translation

Translate audio signals of speech in one language into text in a foreign language, either in an end-to-end or cascade manner.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–146 of 146 papers

Title	Date	Tasks	Status
Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing?	Feb 19, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified
Strategies for improving low resource speech to text translation relying on pre-trained ASR models	May 31, 2023	Automatic Speech RecognitionDecoder	—Unverified
StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection	Jun 10, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified
Subtitles to Segmentation: Improving Low-Resource Speech-to-TextTranslation Pipelines	May 1, 2020	Cross-Lingual Information RetrievalInformation Retrieval	—Unverified
Subtitles to Segmentation: Improving Low-Resource Speech-to-Text Translation Pipelines	Oct 19, 2020	Cross-Lingual Information RetrievalInformation Retrieval	—Unverified
TASK AWARE MULTI-TASK LEARNING FOR SPEECH TO TEXT TASKS	Jun 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The USFD Spoken Language Translation System for IWSLT 2014	Sep 13, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Measuring Fairness in AI: the Casual Conversations Dataset	Apr 6, 2021	Age And Gender ClassificationDeepFake Detection	—Unverified
Towards speech-to-text translation without speech recognition	Feb 13, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards the evaluation of automatic simultaneous speech translation from a communicative perspective	Mar 15, 2021	automatic-speech-translationInformativeness	—Unverified
Towards Unsupervised Speech-to-Text Translation	Nov 4, 2018	DenoisingLanguage Modeling	—Unverified
Unsupervised Cross-Modal Alignment of Speech and Text Embedding Spaces	May 18, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unveiling the Role of Pretraining in Direct Speech Translation	Sep 26, 2024	Automatic Speech RecognitionDecoder	—Unverified
Using of heterogeneous corpora for training of an ASR system	Jun 1, 2017	speech-recognitionSpeech Recognition	—Unverified
When End-to-End is Overkill: Rethinking Cascaded Speech-to-Text Translation	Feb 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling	Jun 21, 2021	speech-recognitionSpeech Recognition	—Unverified
Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases	Feb 1, 2024	speech-recognitionSpeech Recognition	—Unverified
Recent Advances in Direct Speech-to-text Translation	Jun 20, 2023	Data AugmentationDecoder	—Unverified
Representation Purification for End-to-End Speech Translation	Dec 5, 2024	Machine TranslationRhythm	—Unverified
Revisiting End-to-End Speech-to-Text Translation From Scratch	Jun 9, 2022	Decoderspeech-recognition	—Unverified
Robust Semantic Communications for Speech Transmission	Mar 8, 2024	Generative Adversarial NetworkSemantic Communication	—Unverified
S2ST-Omni: An Efficient and Scalable Multilingual Speech-to-Speech Translation Framework via Seamless Speech-Text Alignment and Streaming Speech Generation	Jun 11, 2025	Reading ComprehensionSpeech Synthesis	—Unverified
SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation	May 17, 2022	Representation LearningRetrieval	—Unverified
Self-Supervised Representations Improve End-to-End Speech Translation	Jun 22, 2020	Cross-Lingual Transferspeech-recognition	—Unverified
Simple and Effective Unsupervised Speech Translation	Oct 18, 2022	Domain AdaptationMachine Translation	—Unverified
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation	Jul 3, 2022	DecoderSpeech-to-Text	CodeCode Available
SparQLe: Speech Queries to Text Translation Through LLMs	Feb 13, 2025	Speech-to-TextSpeech-to-Text Translation	CodeCode Available
Listen and Translate: A Proof of Concept for End-to-End Speech-to-Text Translation	Dec 6, 2016	Speech-to-TextSpeech-to-Text Translation	CodeCode Available
Pre-training on high-resource speech recognition improves low-resource speech-to-text translation	Sep 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects	Jun 27, 2024	Automatic Speech RecognitionMachine Translation	CodeCode Available
Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models	Jul 9, 2024	coreference-resolutionCoreference Resolution	CodeCode Available
Speechformer: Reducing Information Loss in Direct Speech Translation	Sep 9, 2021	Speech-to-Text TranslationTranslation	CodeCode Available
LibriS2S: A German-English Speech-to-Speech Translation Corpus	Apr 22, 2022	Speech-to-Speech TranslationSpeech-to-Text	CodeCode Available
Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding	Dec 16, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units	Jul 19, 2024	Machine TranslationSpeech-to-Text	CodeCode Available
Direct speech-to-speech translation with a sequence-to-sequence model	Apr 12, 2019	Speech SynthesisSpeech-to-Speech Translation	CodeCode Available
WACO: Word-Aligned Contrastive Learning for Speech Translation	Dec 19, 2022	Contrastive LearningSpeech-to-Text	CodeCode Available
Efficient Speech Translation with Dynamic Latent Perceivers	Oct 28, 2022	Speech-to-TextSpeech-to-Text Translation	CodeCode Available
Investigating Zero-Shot Generalizability on Mandarin-English Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models with Self-Supervision and Weak Supervision	Dec 30, 2023	Speech-to-TextSpeech-to-Text Translation	CodeCode Available
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available
Augmenting Librispeech with French Translations: A Multimodal Corpus for Direct Speech Translation Evaluation	Feb 9, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
fairseq S2T: Fast Speech-to-Text Modeling with fairseq	Oct 11, 2020	Machine TranslationMulti-Task Learning	CodeCode Available
End-to-End Automatic Speech Translation of Audiobooks	Feb 12, 2018	automatic-speech-translationSpeech-to-Text	CodeCode Available
BeaverTalk: Oregon State University's IWSLT 2025 Simultaneous Speech Translation System	May 29, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation	Oct 24, 2022	SegmentationSpeech-to-Text	CodeCode Available
An Empirical Study of Consistency Regularization for End-to-End Speech-to-Text Translation	Aug 28, 2023	Machine TranslationNMT	CodeCode Available

Show:10 25 50

← PrevPage 3 of 3Next →

All datasets MuST-C EN->DE MuST-C EN->ES MuST-C EN->FR CoVoST 2 eng-X CoVoST 2 X-eng FLEURS eng-X FLEURS X-eng libri-trans MediBeng MuST-C MuST-C EN->NL

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Task Modulation + Multitask Learning(ASR/MT) + Data Augmentation	Case-sensitive sacreBLEU	28.88	—	Unverified
2	Wav2Vec2.0+mBART+Adaptors	Case-sensitive sacreBLEU	28.22	—	Unverified
3	Transformer + Meta Learning(ASR/MT) + Data Augmentation	Case-sensitive sacreBLEU	27.51	—	Unverified
4	Transformer with Adapters	Case-sensitive sacreBLEU	24.63	—	Unverified
5	Dual-decoder Transformer	Case-sensitive sacreBLEU	23.63	—	Unverified
6	Speechformer	Case-sensitive sacreBLEU	23.6	—	Unverified
7	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	22.8	—	Unverified
8	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	22.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer with Adapters	Case-sensitive sacreBLEU	28.73	—	Unverified
2	Speechformer	Case-sensitive sacreBLEU	28.5	—	Unverified
3	Dual-decoder Transformer	Case-sensitive sacreBLEU	28.12	—	Unverified
4	Transformer + ASR Pretrain + SpecAug	Case-sensitive sacreBLEU	27.4	—	Unverified
5	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	26.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dual-decoder Transformer	Case-sensitive sacreBLEU	33.45	—	Unverified
2	Transformer + ASR Pretrain + SpecAug	Case-sensitive sacreBLEU	33.3	—	Unverified
3	Transformer + ASR Pretrain	Case-sensitive sacreBLEU	32.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	30.6	—	Unverified
2	SeamlessM4T Medium	BLEU	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	34.1	—	Unverified
2	SeamlessM4T Medium	BLEU	29.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	21.5	—	Unverified
2	SeamlessM4T Medium	BLEU	19.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	BLEU	24	—	Unverified
2	SeamlessM4T Medium	BLEU	20.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer + ASR Pretrain + SpecAug	Case-insensitive sacreBLEU	17.2	—	Unverified
2	Transformer + ASR Pretrain	Case-insensitive sacreBLEU	16.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MediBeng Whisper Tiny	Bleu	0.98	—	Unverified
2	Whisper Tiny	Bleu	0.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer with Adapters	SacreBLEU	26.61	—	Unverified
2	Dual-decoder Transformer	SacreBLEU	25.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Speechformer	Case-sensitive sacreBLEU	27.7	—	Unverified