Machine Translation

Machine translation is the task of translating a sentence in a source language to a different target language.

Approaches for machine translation can range from rule-based to statistical to neural-based. More recently, encoder-decoder attention-based architectures like BERT have attained major improvements in machine translation.

One of the most popular datasets used to benchmark machine translation systems is the WMT family of datasets. Some of the most commonly used evaluation metrics for machine translation systems include BLEU, METEOR, NIST, and others.

( Image credit: Google seq2seq )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 10752 papers

Title	Date	Tasks	Status	Hype
PLOD: An Abbreviation Detection Dataset for Scientific Documents	Apr 26, 2022	AbbreviationDetectionInformation Retrieval	CodeCode Available	1
PMIndia -- A Collection of Parallel Corpora of Languages of India	Jan 27, 2020	Machine TranslationMultilingual NLP	CodeCode Available	1
Prabhupadavani: A Code-mixed Speech Translation Data for 25 Languages	Jan 27, 2022	Cultural Vocal Bursts Intensity PredictionMachine Translation	CodeCode Available	1
An Open-Source Gloss-Based Baseline for Spoken to Signed Language Translation	May 28, 2023	Machine TranslationSentence	CodeCode Available	1
Agent-SiMT: Agent-assisted Simultaneous Machine Translation with Large Language Models	Jun 11, 2024	Machine TranslationSentence	CodeCode Available	1
Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information	Oct 7, 2020	Machine TranslationTranslation	CodeCode Available	1
Prompsit's submission to WMT 2018 Parallel Corpus Filtering shared task	Oct 1, 2018	Active LearningLanguage Modeling	CodeCode Available	1
An Optimal Algorithm for Finding Champions in Tournament Graphs	Nov 26, 2021	Conversational SearchInformation Retrieval	CodeCode Available	1
An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text Generation	Dec 19, 2022	Machine TranslationText Generation	CodeCode Available	1
Prompt Optimization via Adversarial In-Context Learning	Dec 5, 2023	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1
A global analysis of metrics used for measuring performance in natural language processing	Apr 25, 2022	BenchmarkingMachine Translation	CodeCode Available	1
Prosodic Phrase Alignment for Machine Dubbing	Aug 20, 2019	Machine TranslationTranslation	CodeCode Available	1
A Parallel Evaluation Data Set of Software Documentation with Document Structure Annotation	Aug 11, 2020	Machine TranslationTranslation	CodeCode Available	1
Quality-Aware Decoding for Neural Machine Translation	May 2, 2022	Machine TranslationNMT	CodeCode Available	1
A Character-Level Decoder without Explicit Segmentation for Neural Machine Translation	Mar 19, 2016	Decoderde-en	CodeCode Available	1
Reducing Transformer Depth on Demand with Structured Dropout	Sep 25, 2019	Language ModelingLanguage Modelling	CodeCode Available	1
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation	Jul 17, 2020	DecoderMachine Translation	CodeCode Available	1
Relational Surrogate Loss Learning	Feb 26, 2022	image-classificationImage Classification	CodeCode Available	1
Residual Energy-Based Models for Text Generation	Apr 22, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
N-gram Is Back: Residual Learning of Neural Text Generation with n-gram Language Model	Oct 26, 2022	Domain AdaptationLanguage Modeling	CodeCode Available	1
ResMLP: Feedforward networks for image classification with data-efficient training	May 7, 2021	Data AugmentationFine-Grained Image Classification	CodeCode Available	1
Rethinking Automatic Evaluation in Sentence Simplification	Apr 15, 2021	Machine TranslationSentence	CodeCode Available	1
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs	Jun 26, 2024	ArzEn Code-switched Translation to araArzEn Code-switched Translation to eng	CodeCode Available	1
Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT	Sep 16, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Revisiting Label Smoothing and Knowledge Distillation Compatibility: What was Missing?	Jun 29, 2022	image-classificationImage Classification	CodeCode Available	1
On the Evaluation Metrics for Paraphrase Generation	Feb 17, 2022	Machine TranslationParaphrase Generation	CodeCode Available	1
Robust Open-Vocabulary Translation from Visual Text Representations	Apr 16, 2021	Machine TranslationTranslation	CodeCode Available	1
Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages	Apr 12, 2021	Machine TranslationMultilingual NLP	CodeCode Available	1
Sampling-Based Approximations to Minimum Bayes Risk Decoding for Neural Machine Translation	Aug 10, 2021	Machine TranslationNMT	CodeCode Available	1
Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination	May 20, 2023	HallucinationMachine Translation	CodeCode Available	1
A Sketch-Based Neural Model for Generating Commit Messages from Diffs	Apr 8, 2021	Code GenerationDescriptive	CodeCode Available	1
Arch-Net: Model Distillation for Architecture Agnostic Model Deployment	Nov 1, 2021	image-classificationImage Classification	CodeCode Available	1
Asynchronous Bidirectional Decoding for Neural Machine Translation	Jan 16, 2018	DecoderMachine Translation	CodeCode Available	1
Self-Training Sampling with Monolingual Data Uncertainty for Neural Machine Translation	Jun 2, 2021	Machine TranslationNMT	CodeCode Available	1
An Unsupervised method for OCR Post-Correction and Spelling Normalisation for Finnish	Nov 6, 2020	Machine TranslationNMT	CodeCode Available	1
SemMT: A Semantic-based Testing Approach for Machine Translation Systems	Dec 3, 2020	Machine TranslationSemantic Similarity	CodeCode Available	1
Automatic Text Evaluation through the Lens of Wasserstein Barycenters	Aug 27, 2021	Image CaptioningMachine Translation	CodeCode Available	1
Sequence Generation with Mixed Representations	Jul 11, 2020	Abstractive Text SummarizationDiversity	CodeCode Available	1
Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation	Dec 26, 2019	BenchmarkingDomain Adaptation	CodeCode Available	1
SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic Mistakes	Dec 19, 2022	Dialogue GenerationMachine Translation	CodeCode Available	1
A Discriminative Hierarchical PLDA-based Model for Spoken Language Recognition	Jan 4, 2022	Machine Translationspeech-recognition	CodeCode Available	1
Shallow-to-Deep Training for Neural Machine Translation	Oct 8, 2020	Machine TranslationNMT	CodeCode Available	1
Gender Coreference and Bias Evaluation at WMT 2020	Oct 12, 2020	Machine TranslationTranslation	CodeCode Available	1
Shifts: A Dataset of Real Distributional Shift Across Multiple Large-Scale Tasks	Jul 15, 2021	image-classificationImage Classification	CodeCode Available	1
SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects	Sep 14, 2023	Cross-Lingual TransferLanguage Modelling	CodeCode Available	1
SignBank+: Preparing a Multilingual Sign Language Dataset for Machine Translation Using Large Language Models	Sep 20, 2023	Machine TranslationSign Language Translation	CodeCode Available	1
Neural Syntactic Preordering for Controlled Paraphrase Generation	May 5, 2020	DecoderDiversity	CodeCode Available	1
Simulated Multiple Reference Training Improves Low-Resource Machine Translation	Apr 30, 2020	Machine TranslationSentence	CodeCode Available	1
Simultaneous Translation and Paraphrase for Language Education	Jul 1, 2020	Machine TranslationMultilingual NLP	CodeCode Available	1
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation	Mar 11, 2023	Image CaptioningImage to text	CodeCode Available	1

Show:10 25 50

← PrevPage 17 of 216Next →

All datasets WMT2014 English-German WMT2014 English-French IWSLT2014 German-English ACES WMT2016 English-Romanian WMT2016 Romanian-English WMT2014 German-English IWSLT2015 German-English WMT2016 English-German IWSLT2015 English-Vietnamese IWSLT2015 English-German WMT2016 German-English

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Transformer Cycle (Rev)	BLEU score	35.14	—	Unverified
2	Noisy back-translation	BLEU score	35	—	Unverified
3	Transformer+Rep(Uni)	BLEU score	33.89	—	Unverified
4	T5-11B	BLEU score	32.1	—	Unverified
5	BiBERT	BLEU score	31.26	—	Unverified
6	Transformer + R-Drop	BLEU score	30.91	—	Unverified
7	Bi-SimCut	BLEU score	30.78	—	Unverified
8	BERT-fused NMT	BLEU score	30.75	—	Unverified
9	Data Diversification - Transformer	BLEU score	30.7	—	Unverified
10	SimCut	BLEU score	30.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer+BT (ADMIN init)	BLEU score	46.4	—	Unverified
2	Noisy back-translation	BLEU score	45.6	—	Unverified
3	mRASP+Fine-Tune	BLEU score	44.3	—	Unverified
4	Transformer + R-Drop	BLEU score	43.95	—	Unverified
5	Transformer (ADMIN init)	BLEU score	43.8	—	Unverified
6	Admin	BLEU score	43.8	—	Unverified
7	BERT-fused NMT	BLEU score	43.78	—	Unverified
8	MUSE(Paralllel Multi-scale Attention)	BLEU score	43.5	—	Unverified
9	T5	BLEU score	43.4	—	Unverified
10	Local Joint Self-attention	BLEU score	43.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PiNMT	BLEU score	40.43	—	Unverified
2	BiBERT	BLEU score	38.61	—	Unverified
3	Bi-SimCut	BLEU score	38.37	—	Unverified
4	Cutoff + Relaxed Attention + LM	BLEU score	37.96	—	Unverified
5	DRDA	BLEU score	37.95	—	Unverified
6	Transformer + R-Drop + Cutoff	BLEU score	37.9	—	Unverified
7	SimCut	BLEU score	37.81	—	Unverified
8	Cutoff+Knee	BLEU score	37.78	—	Unverified
9	Cutoff	BLEU score	37.6	—	Unverified
10	CipherDAug	BLEU score	37.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HWTSC-Teacher-Sim	Score	19.97	—	Unverified
2	MS-COMET-22	Score	19.89	—	Unverified
3	MS-COMET-QE-22	Score	19.76	—	Unverified
4	KG-BERTScore	Score	17.28	—	Unverified
5	metricx_xl_DA_2019	Score	17.17	—	Unverified
6	COMET-QE	Score	16.8	—	Unverified
7	COMET-22	Score	16.31	—	Unverified
8	UniTE-src	Score	15.68	—	Unverified
9	UniTE-ref	Score	15.38	—	Unverified
10	metricx_xxl_DA_2019	Score	15.24	—	Unverified