Multimodal Machine Translation

Multimodal machine translation is the task of doing machine translation with multiple data sources - for example, translating "a bird is flying over water" + an image of a bird over water to German text.

( Image credit: Findings of the Third Shared Task on Multimodal Machine Translation )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 108 papers

Title	Date	Tasks	Status	Hype
Seamless: Multilingual Expressive and Streaming Speech Translation	Dec 8, 2023	automatic-speech-translationMachine Translation	CodeCode Available	6
Attention Is All You Need	Jun 12, 2017	Abstractive Text SummarizationAll	CodeCode Available	3
Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation	Oct 10, 2022	Knowledge DistillationMachine Translation	CodeCode Available	1
MSCTD: A Multimodal Sentiment Chat Translation Dataset	Feb 28, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Dynamic Context-guided Capsule Network for Multimodal Machine Translation	Sep 4, 2020	DecoderMachine Translation	CodeCode Available	1
On Vision Features in Multimodal Machine Translation	Mar 17, 2022	Image CaptioningMachine Translation	CodeCode Available	1
VALHALLA: Visual Hallucination for Machine Translation	May 31, 2022	HallucinationMachine Translation	CodeCode Available	1
Neural Machine Translation with Phrase-Level Universal Visual Representations	Mar 19, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Self-Knowledge Distillation with Progressive Refinement of Targets	Jun 22, 2020	image-classificationImage Classification	CodeCode Available	1
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset	Apr 29, 2024	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation	Aug 29, 2023	Image CaptioningMachine Translation	CodeCode Available	1
BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation	May 23, 2023	Contrastive LearningMachine Translation	CodeCode Available	1
VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation	Jan 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Cross-lingual Visual Pre-training for Multimodal Machine Translation	Jan 25, 2021	Language ModellingMachine Translation	CodeCode Available	1
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training	Jun 4, 2020	Image CaptioningImage Retrieval	CodeCode Available	1
Multimodal Transformer for Multimodal Machine Translation	Jul 1, 2020	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination	May 20, 2023	HallucinationMachine Translation	CodeCode Available	1
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
BERTGEN: Multi-task Generation through BERT	Jun 7, 2021	DecoderImage Captioning	CodeCode Available	1
CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation	May 30, 2025	BenchmarkingMachine Translation	—Unverified	0
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified	0
Investigating the Decoders of Maximum Likelihood Sequence Models: A Look-ahead Approach	Mar 8, 2020	Machine TranslationMultimodal Machine Translation	—Unverified	0
Does Multimodality Help Human and Machine for Translation and Image Captioning?	May 30, 2016	Image CaptioningImage Description	—Unverified	0
A Dataset and Reranking Method for Multimodal MT of User-Generated Image Captions	Mar 1, 2018	Image CaptioningMachine Translation	—Unverified	0
A Shared Task on Multimodal Machine Translation and Crosslingual Image Description	Aug 1, 2016	Image DescriptionImage Retrieval	—Unverified	0
Doubly-Attentive Decoder for Multi-modal Neural Machine Translation	Feb 4, 2017	DecoderImage Description	—Unverified	0
Doubly Attentive Transformer Machine Translation	Jul 30, 2018	DecoderImage Captioning	—Unverified	0
Increasing Visual Awareness in Multimodal Neural Machine Translation from an Information Theoretic Perspective	Oct 16, 2022	Machine TranslationMultimodal Machine Translation	—Unverified	0
Adaptive Fusion Techniques for Multimodal Data	Nov 10, 2019	Emotion RecognitionMachine Translation	—Unverified	0
Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding	Dec 18, 2020	Machine TranslationMultimodal Machine Translation	—Unverified	0
Input Combination Strategies for Multi-Source Transformer Decoder	Oct 1, 2018	DecoderImage Captioning	—Unverified	0
Iterative Adversarial Attack on Image-guided Story Ending Generation	May 16, 2023	Adversarial AttackAdversarial Robustness	—Unverified	0
Detecting Concrete Visual Tokens for Multimodal Machine Translation	Mar 5, 2024	Machine TranslationMultimodal Machine Translation	—Unverified	0
Generating Image Descriptions using Multilingual Data	Sep 1, 2017	Image CaptioningLanguage Modeling	—Unverified	0
Debiasing Word Embeddings Improves Multimodal Machine Translation	May 24, 2019	Machine TranslationMultimodal Machine Translation	—Unverified	0
DCU-UvA Multimodal MT System Report	Aug 1, 2016	Machine TranslationMultimodal Machine Translation	—Unverified	0
CUNI System for WMT16 Automatic Post-Editing and Multimodal Translation Tasks	Jun 23, 2016	Automatic Post-EditingMachine Translation	—Unverified	0
Findings of the Second Shared Task on Multimodal Machine Translation and Multilingual Image Description	Oct 19, 2017	Image DescriptionMachine Translation	—Unverified	0
A Visually-Grounded Parallel Corpus with Phrase-to-Region Linking	May 1, 2020	Image CaptioningMachine Translation	—Unverified	0
Adversarial Evaluation of Multimodal Machine Translation	Oct 1, 2018	Machine TranslationMultimodal Machine Translation	—Unverified	0
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models	Mar 12, 2025	Cross-Lingual TransferImage Captioning	—Unverified	0
Generalization algorithm of multimodal pre-training model based on graph-text self-supervised training	Feb 16, 2023	Machine TranslationMultimodal Machine Translation	—Unverified	0
Hindi Visual Genome: A Dataset for Multimodal English-to-Hindi Machine Translation	Jul 21, 2019	Machine TranslationMultimodal Machine Translation	—Unverified	0
Generative Imagination Elevates Machine Translation	Sep 21, 2020	Machine TranslationMultimodal Machine Translation	—Unverified	0
Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation	May 30, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Good for Misconceived Reasons: Revisiting Neural Multimodal Machine Translation	Jan 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Grounded Word Sense Translation	Jun 1, 2019	Grounded language learningMachine Translation	—Unverified	0
Gumbel-Attention for Multi-modal Machine Translation	Mar 16, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Findings of the 2018 Conference on Machine Translation (WMT18)	Oct 1, 2018	Automatic Post-EditingMachine Translation	—Unverified	0
Findings of the 2017 Conference on Machine Translation (WMT17)	Sep 1, 2017	Automatic Post-EditingMachine Translation	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Multi30K Hindi Visual Genome (Challenge Set)Hindi Visual Genome (Test Set)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	del	Meteor (EN-FR)	74.6	—	Unverified
2	ERNIE-UniX2	BLEU (EN-DE)	49.3	—	Unverified
3	IKD-MMT	BLEU (EN-DE)	41.28	—	Unverified
4	DCCN	BLEU (EN-DE)	39.7	—	Unverified
5	Caglayan	BLEU (EN-DE)	39.4	—	Unverified
6	Gumbel-Attention MMT	BLEU (EN-DE)	39.2	—	Unverified
7	Multimodal Transformer	BLEU (EN-DE)	38.7	—	Unverified
8	ImagiT	BLEU (EN-DE)	38.4	—	Unverified
9	del+obj	BLEU (EN-DE)	38	—	Unverified
10	VMMTF	BLEU (EN-DE)	37.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	44.6	—	Unverified