Multimodal Machine Translation

Multimodal machine translation is the task of doing machine translation with multiple data sources - for example, translating "a bird is flying over water" + an image of a bird over water to German text.

( Image credit: Findings of the Third Shared Task on Multimodal Machine Translation )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 108 papers

Title	Date	Tasks	Status
A Shared Task on Multimodal Machine Translation and Crosslingual Image Description	Aug 1, 2016	Image DescriptionImage Retrieval	—Unverified
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified
A Visually-Grounded Parallel Corpus with Phrase-to-Region Linking	May 1, 2020	Image CaptioningMachine Translation	—Unverified
CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation	May 30, 2025	BenchmarkingMachine Translation	—Unverified
CUNI System for the WMT18 Multimodal Translation Task	Oct 1, 2018	Image ClassificationMachine Translation	—Unverified
CUNI System for WMT16 Automatic Post-Editing and Multimodal Translation Tasks	Jun 23, 2016	Automatic Post-EditingMachine Translation	—Unverified
DCU-UvA Multimodal MT System Report	Aug 1, 2016	Machine TranslationMultimodal Machine Translation	—Unverified
Debiasing Word Embeddings Improves Multimodal Machine Translation	May 24, 2019	Machine TranslationMultimodal Machine Translation	—Unverified
Detecting Concrete Visual Tokens for Multimodal Machine Translation	Mar 5, 2024	Machine TranslationMultimodal Machine Translation	—Unverified
Does Multimodality Help Human and Machine for Translation and Image Captioning?	May 30, 2016	Image CaptioningImage Description	—Unverified
Doubly-Attentive Decoder for Multi-modal Neural Machine Translation	Feb 4, 2017	DecoderImage Description	—Unverified
Doubly Attentive Transformer Machine Translation	Jul 30, 2018	DecoderImage Captioning	—Unverified
Adaptive Fusion Techniques for Multimodal Data	Nov 10, 2019	Emotion RecognitionMachine Translation	—Unverified
Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding	Dec 18, 2020	Machine TranslationMultimodal Machine Translation	—Unverified
EMMeTT: Efficient Multimodal Machine Translation Training	Sep 20, 2024	automatic-speech-translationDecoder	—Unverified
Ensemble Sequence Level Training for Multimodal MT: OSU-Baidu WMT18 Multimodal Machine Translation System Report	Aug 31, 2018	DecoderMachine Translation	—Unverified
ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation	Nov 9, 2022	Contrastive LearningDecoder	—Unverified
Experiences of Adapting Multimodal Machine Translation Techniques for Hindi	Sep 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified
Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets	Apr 9, 2024	Machine TranslationMultimodal Machine Translation	—Unverified
Findings of the 2016 Conference on Machine Translation	Aug 1, 2016	Automatic Post-EditingMachine Translation	—Unverified
Findings of the 2017 Conference on Machine Translation (WMT17)	Sep 1, 2017	Automatic Post-EditingMachine Translation	—Unverified
Findings of the 2018 Conference on Machine Translation (WMT18)	Oct 1, 2018	Automatic Post-EditingMachine Translation	—Unverified
Findings of the Second Shared Task on Multimodal Machine Translation and Multilingual Image Description	Oct 19, 2017	Image DescriptionMachine Translation	—Unverified
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models	Mar 12, 2025	Cross-Lingual TransferImage Captioning	—Unverified
Generalization algorithm of multimodal pre-training model based on graph-text self-supervised training	Feb 16, 2023	Machine TranslationMultimodal Machine Translation	—Unverified

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets Multi30K Hindi Visual Genome (Challenge Set)Hindi Visual Genome (Test Set)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	del	Meteor (EN-FR)	74.6	—	Unverified
2	ERNIE-UniX2	BLEU (EN-DE)	49.3	—	Unverified
3	IKD-MMT	BLEU (EN-DE)	41.28	—	Unverified
4	DCCN	BLEU (EN-DE)	39.7	—	Unverified
5	Caglayan	BLEU (EN-DE)	39.4	—	Unverified
6	Gumbel-Attention MMT	BLEU (EN-DE)	39.2	—	Unverified
7	Multimodal Transformer	BLEU (EN-DE)	38.7	—	Unverified
8	ImagiT	BLEU (EN-DE)	38.4	—	Unverified
9	del+obj	BLEU (EN-DE)	38	—	Unverified
10	VMMTF	BLEU (EN-DE)	37.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	44.6	—	Unverified