Speech-to-Speech Translation

Speech-to-speech translation (S2ST) consists on translating speech from one language to speech in another language. This can be done with a cascade of automatic speech recognition (ASR), text-to-text machine translation (MT), and text-to-speech (TTS) synthesis sub-systems, which is text-centric. Recently, works on S2ST without relying on intermediate text representation is emerging.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 117 papers

Title	Date	Tasks	Status
Towards Multilingual Conversations in the Medical Domain: Development of Multilingual Medical Data and A Network-based ASR System	May 1, 2014	Machine Translationspeech-recognition	—Unverified
TranSentence: Speech-to-speech Translation via Language-agnostic Sentence-level Speech Encoding without Language-parallel Data	Jan 17, 2024	SentenceSpeech-to-Speech Translation	—Unverified
TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation	Dec 23, 2023	es-enfr-en	—Unverified
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation	Jul 19, 2021	Data AugmentationDecoder	—Unverified
Translatotron 3: Speech to Speech Translation with Monolingual Data	May 27, 2023	Speech-to-Speech TranslationTranslation	—Unverified
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units	Dec 15, 2022	DecoderDenoising	—Unverified
UWSpeech: Speech to Speech Translation for Unwritten Languages	Jun 14, 2020	speech-recognitionSpeech Recognition	—Unverified
Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs	Jun 12, 2025	Speech-to-Speech Translationtext-to-speech	—Unverified
What does it take to get state of the art in simultaneous speech-to-speech translation?	Sep 2, 2024	HallucinationManagement	—Unverified
A Case Study on Filtering for End-to-End Speech Translation	Feb 2, 2024	Speech-to-Speech TranslationSpeech-to-Text	—Unverified
A Holistic Cascade System, benchmark, and Human Evaluation Protocol for Expressive Speech-to-Speech Translation	Jan 25, 2023	Speech-to-Speech TranslationTranslation	—Unverified
Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation	Jul 8, 2024	Automatic Speech RecognitionEmotion Recognition	—Unverified
Assessing Evaluation Metrics for Speech-to-Speech Translation	Oct 26, 2021	Machine TranslationOpen-Ended Question Answering	—Unverified
AudioPaLM: A Large Language Model That Can Speak and Listen	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation	Feb 1, 2025	Speech-to-Speech TranslationTranslation	—Unverified
Automatic Extraction of Parallel Speech Corpora from Dubbed Movies	Aug 1, 2017	Speech-to-Speech TranslationTranslation	—Unverified
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation	May 24, 2023	Speech-to-Speech TranslationTranslation	—Unverified
Balancing Speech Understanding and Generation Using Continual Pre-training for Codec-based Speech LLM	Feb 24, 2025	Automatic Speech RecognitionLanguage Modeling	—Unverified
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?	Jun 11, 2024	Contrastive LearningSpeech Synthesis	—Unverified
Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus	Feb 25, 2025	Speech-to-Speech TranslationTranslation	—Unverified
Cross-Lingual Machine Speech Chain for Javanese, Sundanese, Balinese, and Bataks Speech Recognition and Synthesis	Nov 4, 2020	Machine Translationspeech-recognition	—Unverified
CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning	May 23, 2024	es-enfr-en	—Unverified
DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct Speech-to-Speech Translation	Oct 26, 2023	Image GenerationSpeech-to-Speech Translation	—Unverified
Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation	Jun 14, 2024	Speech-to-Speech TranslationTranslation	—Unverified
Direct Punjabi to English speech translation using discrete units	Feb 25, 2024	Speech-to-Speech TranslationSpeech-to-Text	—Unverified

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets TAT FLEURS X-eng CVSS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Hokkien→En (Two-pass decoding)	ASR-BLEU (Dev)	13.6	—	Unverified
2	Hokkien→En (Two-stage)	ASR-BLEU (Dev)	12.5	—	Unverified
3	Hokkien→En (Three-stage)	ASR-BLEU (Dev)	12.5	—	Unverified
4	Hokkien→En (Single-pass decoding)	ASR-BLEU (Dev)	8.8	—	Unverified
5	En→Hokkien (Two-pass decoding)	ASR-BLEU (Dev)	7.8	—	Unverified
6	En→Hokkien (Three-stage)	ASR-BLEU (Dev)	7.5	—	Unverified
7	En→Hokkien (Two-stage)	ASR-BLEU (Dev)	7.1	—	Unverified
8	En→Hokkien (Single-pass decoding)	ASR-BLEU (Dev)	6.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GenTranslateV2	ASR-BLEU	32.3	—	Unverified
2	GenTranslateV1	ASR-BLEU	30.1	—	Unverified
3	SeamlessM4T LargeV2	ASR-BLEU	29.4	—	Unverified
4	SeamlessM4T Large	ASR-BLEU	25.8	—	Unverified
5	AudioPaLM2	ASR-BLEU	24	—	Unverified
6	WhisperV2	ASR-BLEU	23.5	—	Unverified
7	SeamlessM4T Medium	ASR-BLEU	20.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeamlessM4T Large	ASR-BLEU	36.5	—	Unverified
2	SeamlessM4T Medium	ASR-BLEU	28.1	—	Unverified