Machine Translation

Machine translation is the task of translating a sentence in a source language to a different target language.

Approaches for machine translation can range from rule-based to statistical to neural-based. More recently, encoder-decoder attention-based architectures like BERT have attained major improvements in machine translation.

One of the most popular datasets used to benchmark machine translation systems is the WMT family of datasets. Some of the most commonly used evaluation metrics for machine translation systems include BLEU, METEOR, NIST, and others.

( Image credit: Google seq2seq )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 10752 papers

Title	Date	Tasks	Status	Hype
Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language	Nov 18, 2023	Machine TranslationTranslation	CodeCode Available	1
SentAlign: Accurate and Scalable Sentence Alignment	Nov 15, 2023	Machine TranslationSentence	CodeCode Available	1
Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding	Nov 14, 2023	Machine TranslationNMT	CodeCode Available	1
Non-autoregressive Machine Translation with Probabilistic Context-free Grammar	Nov 14, 2023	Machine TranslationTranslation	CodeCode Available	1
Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine Translation of Lecture Transcripts	Nov 7, 2023	BenchmarkingMachine Translation	CodeCode Available	1
The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics	Oct 30, 2023	Machine TranslationText Generation	CodeCode Available	1
CreoleVal: Multilingual Multitask Benchmarks for Creoles	Oct 30, 2023	Machine TranslationReading Comprehension	CodeCode Available	1
Enhanced Simultaneous Machine Translation with Word-level Policies	Oct 25, 2023	Machine TranslationTranslation	CodeCode Available	1
Non-autoregressive Streaming Transformer for Simultaneous Translation	Oct 23, 2023	DecoderMachine Translation	CodeCode Available	1
Linguistically Motivated Sign Language Segmentation	Oct 21, 2023	Machine TranslationOptical Flow Estimation	CodeCode Available	1
On Bilingual Lexicon Induction with Large Language Models	Oct 21, 2023	Bilingual Lexicon InductionCross-Lingual Word Embeddings	CodeCode Available	1
CAPIVARA: Cost-Efficient Approach for Improving Multilingual CLIP Performance on Low-Resource Languages	Oct 20, 2023	DiversityGPU	CodeCode Available	1
knn-seq: Efficient, Extensible kNN-MT Framework	Oct 18, 2023	Machine TranslationNMT	CodeCode Available	1
xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection	Oct 16, 2023	Machine TranslationSentence	CodeCode Available	1
In-Context Explainers: Harnessing LLMs for Explaining Black Box Models	Oct 9, 2023	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	1
CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation	Oct 8, 2023	Code TranslationMachine Translation	CodeCode Available	1
Stack Attention: Improving the Ability of Transformers to Model Hierarchical Patterns	Oct 3, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Enhancing Sharpness-Aware Optimization Through Variance Suppression	Sep 27, 2023	Data Augmentationimage-classification	CodeCode Available	1
SignBank+: Preparing a Multilingual Sign Language Dataset for Machine Translation Using Large Language Models	Sep 20, 2023	Machine TranslationSign Language Translation	CodeCode Available	1
GECTurk: Grammatical Error Correction and Detection Dataset for Turkish	Sep 20, 2023	ArticlesDecoder	CodeCode Available	1
SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects	Sep 14, 2023	Cross-Lingual TransferLanguage Modelling	CodeCode Available	1
Mitigating Hallucinations and Off-target Machine Translation with Source-Contrastive and Language-Contrastive Decoding	Sep 13, 2023	Machine TranslationTranslation	CodeCode Available	1
Document AI: A Comparative Study of Transformer-Based, Graph-Based Models, and Convolutional Neural Networks For Document Layout Analysis	Aug 29, 2023	Document AIDocument Layout Analysis	CodeCode Available	1
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation	Aug 29, 2023	Image CaptioningMachine Translation	CodeCode Available	1
Translate Meanings, Not Just Words: IdiomKB's Role in Optimizing Idiomatic Translation with Language Models	Aug 26, 2023	Machine TranslationTranslation	CodeCode Available	1
Improving Translation Faithfulness of Large Language Models via Augmenting Instructions	Aug 24, 2023	Instruction FollowingMachine Translation	CodeCode Available	1
SOTASTREAM: A Streaming Approach to Machine Translation Training	Aug 14, 2023	Machine TranslationManagement	CodeCode Available	1
Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation	Aug 6, 2023	Machine TranslationScene Text Editing	CodeCode Available	1
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation	Aug 4, 2023	Abstractive Text SummarizationLanguage Modeling	CodeCode Available	1
Do Multilingual Language Models Think Better in English?	Aug 2, 2023	Common Sense ReasoningCross-Lingual Natural Language Inference	CodeCode Available	1
mCLIP: Multilingual CLIP via Cross-lingual Transfer	Jul 10, 2023	Contrastive LearningCross-Lingual Transfer	CodeCode Available	1
X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and Few-shot Agents	Jun 30, 2023	Entity AlignmentMachine Translation	CodeCode Available	1
Tokenization and the Noiseless Channel	Jun 29, 2023	Machine Translation	CodeCode Available	1
VisText: A Benchmark for Semantically Rich Chart Captioning	Jun 28, 2023	Machine TranslationText Generation	CodeCode Available	1
Training Transformers with 4-bit Integers	Jun 21, 2023	image-classificationImage Classification	CodeCode Available	1
GIO: Gradient Information Optimization for Training Dataset Selection	Jun 20, 2023	Machine TranslationSpelling Correction	CodeCode Available	1
Explicit Syntactic Guidance for Neural Text Generation	Jun 20, 2023	DiversityMachine Translation	CodeCode Available	1
Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations	Jun 14, 2023	image-classificationImage Classification	CodeCode Available	1
INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation	Jun 10, 2023	Machine TranslationTranslation	CodeCode Available	1
MCTS: A Multi-Reference Chinese Text Simplification Dataset	Jun 5, 2023	Machine TranslationText Simplification	CodeCode Available	1
Binary and Ternary Natural Language Generation	Jun 2, 2023	Machine TranslationQuantization	CodeCode Available	1
BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust Machine Translation Evaluation	May 30, 2023	Machine TranslationSentence	CodeCode Available	1
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets	May 29, 2023	Bias DetectionCode Generation	CodeCode Available	1
An Open-Source Gloss-Based Baseline for Spoken to Signed Language Translation	May 28, 2023	Machine TranslationSentence	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
BIG-C: a Multimodal Multi-Purpose Dataset for Bemba	May 26, 2023	Machine Translationspeech-recognition	CodeCode Available	1
Bridging the Domain Gaps in Context Representations for k-Nearest Neighbor Neural Machine Translation	May 26, 2023	Domain AdaptationMachine Translation	CodeCode Available	1
Songs Across Borders: Singable and Controllable Neural Lyric Translation	May 26, 2023	Machine TranslationNMT	CodeCode Available	1
Towards Higher Pareto Frontier in Multilingual Machine Translation	May 25, 2023	Knowledge DistillationMachine Translation	CodeCode Available	1
CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation	May 24, 2023	Machine TranslationTranslation	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 216Next →

All datasets WMT2014 English-German WMT2014 English-French IWSLT2014 German-English ACES WMT2016 English-Romanian WMT2016 Romanian-English WMT2014 German-English IWSLT2015 German-English WMT2016 English-German IWSLT2015 English-Vietnamese IWSLT2015 English-German WMT2016 German-English

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Transformer Cycle (Rev)	BLEU score	35.14	—	Unverified
2	Noisy back-translation	BLEU score	35	—	Unverified
3	Transformer+Rep(Uni)	BLEU score	33.89	—	Unverified
4	T5-11B	BLEU score	32.1	—	Unverified
5	BiBERT	BLEU score	31.26	—	Unverified
6	Transformer + R-Drop	BLEU score	30.91	—	Unverified
7	Bi-SimCut	BLEU score	30.78	—	Unverified
8	BERT-fused NMT	BLEU score	30.75	—	Unverified
9	Data Diversification - Transformer	BLEU score	30.7	—	Unverified
10	SimCut	BLEU score	30.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer+BT (ADMIN init)	BLEU score	46.4	—	Unverified
2	Noisy back-translation	BLEU score	45.6	—	Unverified
3	mRASP+Fine-Tune	BLEU score	44.3	—	Unverified
4	Transformer + R-Drop	BLEU score	43.95	—	Unverified
5	Admin	BLEU score	43.8	—	Unverified
6	Transformer (ADMIN init)	BLEU score	43.8	—	Unverified
7	BERT-fused NMT	BLEU score	43.78	—	Unverified
8	MUSE(Paralllel Multi-scale Attention)	BLEU score	43.5	—	Unverified
9	T5	BLEU score	43.4	—	Unverified
10	Local Joint Self-attention	BLEU score	43.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PiNMT	BLEU score	40.43	—	Unverified
2	BiBERT	BLEU score	38.61	—	Unverified
3	Bi-SimCut	BLEU score	38.37	—	Unverified
4	Cutoff + Relaxed Attention + LM	BLEU score	37.96	—	Unverified
5	DRDA	BLEU score	37.95	—	Unverified
6	Transformer + R-Drop + Cutoff	BLEU score	37.9	—	Unverified
7	SimCut	BLEU score	37.81	—	Unverified
8	Cutoff+Knee	BLEU score	37.78	—	Unverified
9	Cutoff	BLEU score	37.6	—	Unverified
10	CipherDAug	BLEU score	37.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HWTSC-Teacher-Sim	Score	19.97	—	Unverified
2	MS-COMET-22	Score	19.89	—	Unverified
3	MS-COMET-QE-22	Score	19.76	—	Unverified
4	KG-BERTScore	Score	17.28	—	Unverified
5	metricx_xl_DA_2019	Score	17.17	—	Unverified
6	COMET-QE	Score	16.8	—	Unverified
7	COMET-22	Score	16.31	—	Unverified
8	UniTE-src	Score	15.68	—	Unverified
9	UniTE-ref	Score	15.38	—	Unverified
10	metricx_xxl_DA_2019	Score	15.24	—	Unverified