Multimodal Machine Translation

Multimodal machine translation is the task of doing machine translation with multiple data sources - for example, translating "a bird is flying over water" + an image of a bird over water to German text.

( Image credit: Findings of the Third Shared Task on Multimodal Machine Translation )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 108 papers

Title	Date	Tasks	Status	Hype	Score
Seamless: Multilingual Expressive and Streaming Speech Translation	Dec 8, 2023	automatic-speech-translationMachine Translation	CodeCode Available	6	5
Attention Is All You Need	Jun 12, 2017	Abstractive Text SummarizationAll	CodeCode Available	3	5
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
BERTGEN: Multi-task Generation through BERT	Jun 7, 2021	DecoderImage Captioning	CodeCode Available	1	5
Self-Knowledge Distillation with Progressive Refinement of Targets	Jun 22, 2020	image-classificationImage Classification	CodeCode Available	1	5
On Vision Features in Multimodal Machine Translation	Mar 17, 2022	Image CaptioningMachine Translation	CodeCode Available	1	5
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training	Jun 4, 2020	Image CaptioningImage Retrieval	CodeCode Available	1	5
MSCTD: A Multimodal Sentiment Chat Translation Dataset	Feb 28, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation	Aug 29, 2023	Image CaptioningMachine Translation	CodeCode Available	1	5
Dynamic Context-guided Capsule Network for Multimodal Machine Translation	Sep 4, 2020	DecoderMachine Translation	CodeCode Available	1	5
BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation	May 23, 2023	Contrastive LearningMachine Translation	CodeCode Available	1	5
VALHALLA: Visual Hallucination for Machine Translation	May 31, 2022	HallucinationMachine Translation	CodeCode Available	1	5
Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation	Oct 10, 2022	Knowledge DistillationMachine Translation	CodeCode Available	1	5
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination	May 20, 2023	HallucinationMachine Translation	CodeCode Available	1	5
Cross-lingual Visual Pre-training for Multimodal Machine Translation	Jan 25, 2021	Language ModellingMachine Translation	CodeCode Available	1	5
Neural Machine Translation with Phrase-Level Universal Visual Representations	Mar 19, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
Multimodal Transformer for Multimodal Machine Translation	Jul 1, 2020	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset	Apr 29, 2024	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation	Jan 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation	Oct 20, 2023	DecoderImage Generation	CodeCode Available	0	5
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
Distilling Translations with Visual Awareness	Jun 18, 2019	DecoderMachine Translation	CodeCode Available	0	5
Towards Zero-Shot Multimodal Machine Translation	Jul 18, 2024	Language ModellingMachine Translation	CodeCode Available	0	5
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
Multimodal Lexical Translation	May 1, 2018	Machine TranslationMultimodal Lexical Translation	CodeCode Available	0	5
Video-Helpful Multimodal Machine Translation	Oct 31, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
UMONS Submission for WMT18 Multimodal Translation Task	Oct 15, 2018	Image CaptioningMachine Translation	CodeCode Available	0	5
Vision Matters When It Should: Sanity Checking Multimodal Machine Translation Models	Sep 8, 2021	Image CaptioningMachine Translation	CodeCode Available	0	5
Findings of the Third Shared Task on Multimodal Machine Translation	Oct 1, 2018	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
TopicVD: A Topic-Based Dataset of Video-Guided Multimodal Machine Translation for Documentaries	May 9, 2025	Domain AdaptationMachine Translation	CodeCode Available	0	5
ViTA: Visual-Linguistic Translation by Aligning Object Tags	Jun 1, 2021	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
Multimodal Machine Translation with Embedding Prediction	Apr 1, 2019	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
A Visual Attention Grounding Neural Model for Multimodal Machine Translation	Aug 24, 2018	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
Multi30K: Multilingual English-German Image Descriptions	May 2, 2016	Image DescriptionMachine Translation	CodeCode Available	0	5
Latent Variable Model for Multi-modal Translation	Nov 1, 2018	DecoderMachine Translation	CodeCode Available	0	5
Incorporating Probing Signals into Multimodal Machine Translation via Visual Question-Answering Pairs	Oct 26, 2023	AttributeMachine Translation	CodeCode Available	0	5
Cultural and Geographical Influences on Image Translatability of Words across Languages	Jun 1, 2021	Cultural Vocal Bursts Intensity PredictionLow Resource Neural Machine Translation	CodeCode Available	0	5
Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding	Dec 18, 2020	Machine TranslationMultimodal Machine Translation	—Unverified	0	0
Adaptive Fusion Techniques for Multimodal Data	Nov 10, 2019	Emotion RecognitionMachine Translation	—Unverified	0	0
CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation	May 30, 2025	BenchmarkingMachine Translation	—Unverified	0	0
Doubly Attentive Transformer Machine Translation	Jul 30, 2018	DecoderImage Captioning	—Unverified	0	0
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified	0	0
Doubly-Attentive Decoder for Multi-modal Neural Machine Translation	Feb 4, 2017	DecoderImage Description	—Unverified	0	0
Does Multimodality Help Human and Machine for Translation and Image Captioning?	May 30, 2016	Image CaptioningImage Description	—Unverified	0	0
Gumbel-Attention for Multi-modal Machine Translation	Mar 16, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0	0
Grounded Word Sense Translation	Jun 1, 2019	Grounded language learningMachine Translation	—Unverified	0	0
A Shared Task on Multimodal Machine Translation and Crosslingual Image Description	Aug 1, 2016	Image DescriptionImage Retrieval	—Unverified	0	0
A Dataset and Reranking Method for Multimodal MT of User-Generated Image Captions	Mar 1, 2018	Image CaptioningMachine Translation	—Unverified	0	0
Good for Misconceived Reasons: Revisiting Neural Multimodal Machine Translation	Jan 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0	0
Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation	May 30, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Multi30K Hindi Visual Genome (Challenge Set)Hindi Visual Genome (Test Set)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	del	Meteor (EN-FR)	74.6	—	Unverified
2	ERNIE-UniX2	BLEU (EN-DE)	49.3	—	Unverified
3	IKD-MMT	BLEU (EN-DE)	41.28	—	Unverified
4	DCCN	BLEU (EN-DE)	39.7	—	Unverified
5	Caglayan	BLEU (EN-DE)	39.4	—	Unverified
6	Gumbel-Attention MMT	BLEU (EN-DE)	39.2	—	Unverified
7	Multimodal Transformer	BLEU (EN-DE)	38.7	—	Unverified
8	ImagiT	BLEU (EN-DE)	38.4	—	Unverified
9	del+obj	BLEU (EN-DE)	38	—	Unverified
10	VMMTF	BLEU (EN-DE)	37.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	44.6	—	Unverified