Multimodal Machine Translation

Multimodal machine translation is the task of doing machine translation with multiple data sources - for example, translating "a bird is flying over water" + an image of a bird over water to German text.

( Image credit: Findings of the Third Shared Task on Multimodal Machine Translation )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 108 papers

Title	Date	Tasks	Status	Hype	Score
Seamless: Multilingual Expressive and Streaming Speech Translation	Dec 8, 2023	automatic-speech-translationMachine Translation	CodeCode Available	6	5
Attention Is All You Need	Jun 12, 2017	Abstractive Text SummarizationAll	CodeCode Available	3	5
Neural Machine Translation with Phrase-Level Universal Visual Representations	Mar 19, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
VALHALLA: Visual Hallucination for Machine Translation	May 31, 2022	HallucinationMachine Translation	CodeCode Available	1	5
Distill the Image to Nowhere: Inversion Knowledge Distillation for Multimodal Machine Translation	Oct 10, 2022	Knowledge DistillationMachine Translation	CodeCode Available	1	5
BERTGEN: Multi-task Generation through BERT	Jun 7, 2021	DecoderImage Captioning	CodeCode Available	1	5
On Vision Features in Multimodal Machine Translation	Mar 17, 2022	Image CaptioningMachine Translation	CodeCode Available	1	5
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation	Aug 29, 2023	Image CaptioningMachine Translation	CodeCode Available	1	5
Self-Knowledge Distillation with Progressive Refinement of Targets	Jun 22, 2020	image-classificationImage Classification	CodeCode Available	1	5
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination	May 20, 2023	HallucinationMachine Translation	CodeCode Available	1	5
BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation	May 23, 2023	Contrastive LearningMachine Translation	CodeCode Available	1	5
Multimodal Transformer for Multimodal Machine Translation	Jul 1, 2020	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training	Jun 4, 2020	Image CaptioningImage Retrieval	CodeCode Available	1	5
VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation	Jan 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
Cross-lingual Visual Pre-training for Multimodal Machine Translation	Jan 25, 2021	Language ModellingMachine Translation	CodeCode Available	1	5
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset	Apr 29, 2024	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
Dynamic Context-guided Capsule Network for Multimodal Machine Translation	Sep 4, 2020	DecoderMachine Translation	CodeCode Available	1	5
MSCTD: A Multimodal Sentiment Chat Translation Dataset	Feb 28, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	1	5
Multimodal Machine Translation with Embedding Prediction	Apr 1, 2019	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation	Oct 20, 2023	DecoderImage Generation	CodeCode Available	0	5
Distilling Translations with Visual Awareness	Jun 18, 2019	DecoderMachine Translation	CodeCode Available	0	5
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation	Dec 20, 2022	Machine TranslationMultimodal Machine Translation	CodeCode Available	0	5
Multimodal Lexical Translation	May 1, 2018	Machine TranslationMultimodal Lexical Translation	CodeCode Available	0	5
Latent Variable Model for Multi-modal Translation	Nov 1, 2018	DecoderMachine Translation	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets Multi30K Hindi Visual Genome (Challenge Set)Hindi Visual Genome (Test Set)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	del	Meteor (EN-FR)	74.6	—	Unverified
2	ERNIE-UniX2	BLEU (EN-DE)	49.3	—	Unverified
3	IKD-MMT	BLEU (EN-DE)	41.28	—	Unverified
4	DCCN	BLEU (EN-DE)	39.7	—	Unverified
5	Caglayan	BLEU (EN-DE)	39.4	—	Unverified
6	Gumbel-Attention MMT	BLEU (EN-DE)	39.2	—	Unverified
7	Multimodal Transformer	BLEU (EN-DE)	38.7	—	Unverified
8	ImagiT	BLEU (EN-DE)	38.4	—	Unverified
9	del+obj	BLEU (EN-DE)	38	—	Unverified
10	VMMTF	BLEU (EN-DE)	37.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	51.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ViTA	BLEU (EN-HI)	44.6	—	Unverified