Multimodal Machine Translation

Multimodal machine translation is the task of doing machine translation with multiple data sources - for example, translating "a bird is flying over water" + an image of a bird over water to German text.

( Image credit: Findings of the Third Shared Task on Multimodal Machine Translation )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 108 papers

Title	Date	Tasks	Status	Hype
Seamless: Multilingual Expressive and Streaming Speech Translation	Dec 8, 2023	automatic-speech-translationMachine Translation	CodeCode Available	6
Attention Is All You Need	Jun 12, 2017	Abstractive Text SummarizationAll	CodeCode Available	3
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset	Apr 29, 2024	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation	Aug 29, 2023	Image CaptioningMachine Translation	CodeCode Available	1
BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation	May 23, 2023	Contrastive LearningMachine Translation	CodeCode Available	1
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination	May 20, 2023	HallucinationMachine Translation	CodeCode Available	1
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation	Oct 10, 2022	Knowledge DistillationMachine Translation	CodeCode Available	1
VALHALLA: Visual Hallucination for Machine Translation	May 31, 2022	HallucinationMachine Translation	CodeCode Available	1
Neural Machine Translation with Phrase-Level Universal Visual Representations	Mar 19, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
On Vision Features in Multimodal Machine Translation	Mar 17, 2022	Image CaptioningMachine Translation	CodeCode Available	1
MSCTD: A Multimodal Sentiment Chat Translation Dataset	Feb 28, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation	Jan 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
BERTGEN: Multi-task Generation through BERT	Jun 7, 2021	DecoderImage Captioning	CodeCode Available	1
Cross-lingual Visual Pre-training for Multimodal Machine Translation	Jan 25, 2021	Language ModellingMachine Translation	CodeCode Available	1
Dynamic Context-guided Capsule Network for Multimodal Machine Translation	Sep 4, 2020	DecoderMachine Translation	CodeCode Available	1
Multimodal Transformer for Multimodal Machine Translation	Jul 1, 2020	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Self-Knowledge Distillation with Progressive Refinement of Targets	Jun 22, 2020	image-classificationImage Classification	CodeCode Available	1
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training	Jun 4, 2020	Image CaptioningImage Retrieval	CodeCode Available	1
CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation	May 30, 2025	BenchmarkingMachine Translation	—Unverified	0
Multimodal Machine Translation with Visual Scene Graph Pruning	May 26, 2025	Machine TranslationMultimodal Machine Translation	—Unverified	0
TopicVD: A Topic-Based Dataset of Video-Guided Multimodal Machine Translation for Documentaries	May 9, 2025	Domain AdaptationMachine Translation	CodeCode Available	0
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models	Mar 12, 2025	Cross-Lingual TransferImage Captioning	—Unverified	0
Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation	Dec 17, 2024	Language ModelingLanguage Modelling	—Unverified	0
EMMeTT: Efficient Multimodal Machine Translation Training	Sep 20, 2024	automatic-speech-translationDecoder	—Unverified	0

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets Multi30K Hindi Visual Genome (Challenge Set)Hindi Visual Genome (Test Set)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	del	Meteor (EN-FR)	74.6	—	Unverified
2	ERNIE-UniX2	BLEU (EN-DE)	49.3	—	Unverified
3	IKD-MMT	BLEU (EN-DE)	41.28	—	Unverified
4	DCCN	BLEU (EN-DE)	39.7	—	Unverified
5	Caglayan	BLEU (EN-DE)	39.4	—	Unverified
6	Gumbel-Attention MMT	BLEU (EN-DE)	39.2	—	Unverified
7	Multimodal Transformer	BLEU (EN-DE)	38.7	—	Unverified
8	ImagiT	BLEU (EN-DE)	38.4	—	Unverified
9	del+obj	BLEU (EN-DE)	38	—	Unverified
10	VMMTF	BLEU (EN-DE)	37.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	44.6	—	Unverified