Multimodal Machine Translation

Multimodal machine translation is the task of doing machine translation with multiple data sources - for example, translating "a bird is flying over water" + an image of a bird over water to German text.

( Image credit: Findings of the Third Shared Task on Multimodal Machine Translation )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 108 papers

Title	Date	Tasks	Status	Hype
CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation	May 30, 2025	BenchmarkingMachine Translation	—Unverified	0
Multimodal Machine Translation with Visual Scene Graph Pruning	May 26, 2025	Machine TranslationMultimodal Machine Translation	—Unverified	0
TopicVD: A Topic-Based Dataset of Video-Guided Multimodal Machine Translation for Documentaries	May 9, 2025	Domain AdaptationMachine Translation	CodeCode Available	0
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models	Mar 12, 2025	Cross-Lingual TransferImage Captioning	—Unverified	0
Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation	Dec 17, 2024	Language ModelingLanguage Modelling	—Unverified	0
EMMeTT: Efficient Multimodal Machine Translation Training	Sep 20, 2024	automatic-speech-translationDecoder	—Unverified	0
Towards Zero-Shot Multimodal Machine Translation	Jul 18, 2024	Language ModellingMachine Translation	CodeCode Available	0
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset	Apr 29, 2024	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets	Apr 9, 2024	Machine TranslationMultimodal Machine Translation	—Unverified	0
The Case for Evaluating Multimodal Translation Models on Text Datasets	Mar 5, 2024	DescriptiveImage Captioning	—Unverified	0
Adding Multimodal Capabilities to a Text-only Translation Model	Mar 5, 2024	Machine TranslationMultimodal Machine Translation	—Unverified	0
Detecting Concrete Visual Tokens for Multimodal Machine Translation	Mar 5, 2024	Machine TranslationMultimodal Machine Translation	—Unverified	0
Seamless: Multilingual Expressive and Streaming Speech Translation	Dec 8, 2023	automatic-speech-translationMachine Translation	CodeCode Available	6
Video-Helpful Multimodal Machine Translation	Oct 31, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available	0
Incorporating Probing Signals into Multimodal Machine Translation via Visual Question-Answering Pairs	Oct 26, 2023	AttributeMachine Translation	CodeCode Available	0
Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation	Oct 20, 2023	DecoderImage Generation	CodeCode Available	0
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation	Aug 29, 2023	Image CaptioningMachine Translation	CodeCode Available	1
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified	0
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available	0
BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation	May 23, 2023	Contrastive LearningMachine Translation	CodeCode Available	1
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination	May 20, 2023	HallucinationMachine Translation	CodeCode Available	1
Iterative Adversarial Attack on Image-guided Story Ending Generation	May 16, 2023	Adversarial AttackAdversarial Robustness	—Unverified	0
Generalization algorithm of multimodal pre-training model based on graph-text self-supervised training	Feb 16, 2023	Machine TranslationMultimodal Machine Translation	—Unverified	0
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	0
ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation	Nov 9, 2022	Contrastive LearningDecoder	—Unverified	0
LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation	Oct 19, 2022	Machine TranslationMultimodal Machine Translation	—Unverified	0
Increasing Visual Awareness in Multimodal Neural Machine Translation from an Information Theoretic Perspective	Oct 16, 2022	Machine TranslationMultimodal Machine Translation	—Unverified	0
Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation	Oct 10, 2022	Knowledge DistillationMachine Translation	CodeCode Available	1
VALHALLA: Visual Hallucination for Machine Translation	May 31, 2022	HallucinationMachine Translation	CodeCode Available	1
Neural Machine Translation with Phrase-Level Universal Visual Representations	Mar 19, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
On Vision Features in Multimodal Machine Translation	Mar 17, 2022	Image CaptioningMachine Translation	CodeCode Available	1
MSCTD: A Multimodal Sentiment Chat Translation Dataset	Feb 28, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
Supervised Visual Attention for Simultaneous Multimodal Machine Translation	Jan 23, 2022	Machine TranslationMultimodal Machine Translation	—Unverified	0
VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation	Jan 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1
On Vision Features in Multimodal Machine Translation	Nov 16, 2021	Image CaptioningMachine Translation	—Unverified	0
Vision Matters When It Should: Sanity Checking Multimodal Machine Translation Models	Sep 8, 2021	Image CaptioningMachine Translation	CodeCode Available	0
Multimodal Neural Machine Translation System for English to Bengali	Sep 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Low Resource Multimodal Neural Machine Translation of English-Hindi in News Domain	Sep 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Experiences of Adapting Multimodal Machine Translation Techniques for Hindi	Sep 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Make the Blind Translator See The World: A Novel Transfer Learning Solution for Multimodal Machine Translation	Aug 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Rakuten’s Participation in WAT 2021: Examining the Effectiveness of Pre-trained Models for Multilingual and Multimodal Machine Translation	Aug 1, 2021	DenoisingLanguage Modeling	—Unverified	0
BERTGEN: Multi-task Generation through BERT	Jun 7, 2021	DecoderImage Captioning	CodeCode Available	1
Cultural and Geographical Influences on Image Translatability of Words across Languages	Jun 1, 2021	Cultural Vocal Bursts Intensity PredictionLow Resource Neural Machine Translation	CodeCode Available	0
ViTA: Visual-Linguistic Translation by Aligning Object Tags	Jun 1, 2021	Machine TranslationMultimodal Machine Translation	CodeCode Available	0
Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation	May 30, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Gumbel-Attention for Multi-modal Machine Translation	Mar 16, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Cross-lingual Visual Pre-training for Multimodal Machine Translation	Jan 25, 2021	Language ModellingMachine Translation	CodeCode Available	1
Good for Misconceived Reasons: Revisiting Neural Multimodal Machine Translation	Jan 1, 2021	Machine TranslationMultimodal Machine Translation	—Unverified	0
Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding	Dec 18, 2020	Machine TranslationMultimodal Machine Translation	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Multi30K Hindi Visual Genome (Challenge Set)Hindi Visual Genome (Test Set)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	del	Meteor (EN-FR)	74.6	—	Unverified
2	ERNIE-UniX2	BLEU (EN-DE)	49.3	—	Unverified
3	IKD-MMT	BLEU (EN-DE)	41.28	—	Unverified
4	DCCN	BLEU (EN-DE)	39.7	—	Unverified
5	Caglayan	BLEU (EN-DE)	39.4	—	Unverified
6	Gumbel-Attention MMT	BLEU (EN-DE)	39.2	—	Unverified
7	Multimodal Transformer	BLEU (EN-DE)	38.7	—	Unverified
8	ImagiT	BLEU (EN-DE)	38.4	—	Unverified
9	del+obj	BLEU (EN-DE)	38	—	Unverified
10	VMMTF	BLEU (EN-DE)	37.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	44.6	—	Unverified