Machine Translation

Machine translation is the task of translating a sentence in a source language to a different target language.

Approaches for machine translation can range from rule-based to statistical to neural-based. More recently, encoder-decoder attention-based architectures like BERT have attained major improvements in machine translation.

One of the most popular datasets used to benchmark machine translation systems is the WMT family of datasets. Some of the most commonly used evaluation metrics for machine translation systems include BLEU, METEOR, NIST, and others.

( Image credit: Google seq2seq )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6501–6550 of 10752 papers

Title	Date	Tasks	Status
SoMeWeTa: A Part-of-Speech Tagger for German Social Media and Web Texts	May 1, 2018	Domain AdaptationLemmatization	CodeCode Available
Generating a Gold Standard for a Swedish Sentiment Lexicon	May 1, 2018	LemmatizationMachine Translation	—Unverified
Building a Macro Chinese Discourse Treebank	May 1, 2018	Information RetrievalMachine Translation	—Unverified
Parser combinators for Tigrinya and Oromo morphology	May 1, 2018	LemmatizationMachine Translation	—Unverified
MGAD: Multilingual Generation of Analogy Datasets	May 1, 2018	Machine TranslationPart-Of-Speech Tagging	CodeCode Available
Parallel Corpora in Mboshi (Bantu C25, Congo-Brazzaville)	May 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PMKI: an European Commission action for the interoperability, maintainability and sustainability of Language Resources	May 1, 2018	Machine Translation	—Unverified
AET: Web-based Adjective Exploration Tool for German	May 1, 2018	Machine Translation	—Unverified
A Detailed Evaluation of Neural Sequence-to-Sequence Models for In-domain and Cross-domain Text Simplification	May 1, 2018	Machine TranslationText Simplification	—Unverified
English-Basque Statistical and Neural Machine Translation	May 1, 2018	Machine TranslationNamed Entity Recognition (NER)	—Unverified
Abstract Meaning Representation of Constructions: The More We Include, the Better the Representation	May 1, 2018	Abstract Meaning RepresentationMachine Translation	—Unverified
NegPar: A parallel corpus annotated for negation	May 1, 2018	Machine TranslationNegation	—Unverified
Developing the Bangla RST Discourse Treebank	May 1, 2018	Machine TranslationSentiment Analysis	—Unverified
A fine-grained error analysis of NMT, SMT and RBMT output for English-to-Dutch	May 1, 2018	Machine TranslationNMT	—Unverified
A Comparative Study of Extremely Low-Resource Transliteration of the World's Languages	May 1, 2018	Machine TranslationSpeech Recognition	—Unverified
Neural Caption Generation for News Images	May 1, 2018	Caption GenerationImage Captioning	—Unverified
A Taxonomy for In-depth Evaluation of Normalization for User Generated Content	May 1, 2018	Grammatical Error CorrectionLexical Normalization	—Unverified
Errator: a Tool to Help Detect Annotation Errors in the Universal Dependencies Project	May 1, 2018	Cross-Lingual TransferMachine Translation	—Unverified
Detecting context-dependent sentences in parallel corpora	May 1, 2018	Machine TranslationSentence	—Unverified
Semi-supervised Training Data Generation for Multilingual Question Answering	May 1, 2018	Machine TranslationNamed Entity Recognition (NER)	—Unverified
A Multilingual Wikified Data Set of Educational Material	May 1, 2018	Cross-Lingual Semantic Textual SimilarityMachine Translation	—Unverified
Designing a Russian Idiom-Annotated Corpus	May 1, 2018	Machine TranslationWord Embeddings	—Unverified
Discovering Parallel Language Resources for Training MT Engines	May 1, 2018	Language IdentificationMachine Translation	—Unverified
Text Simplification from Professionally Produced Corpora	May 1, 2018	Lexical SimplificationMachine Translation	—Unverified
MMQA: A Multi-domain Multi-lingual Question-Answering Framework for English and Hindi	May 1, 2018	Information RetrievalMachine Translation	—Unverified
BiLSTM-CRF for Persian Named-Entity Recognition ArmanPersoNERCorpus: the First Entity-Annotated Persian Dataset	May 1, 2018	Machine Translationnamed-entity-recognition	CodeCode Available
European Language Resource Coordination: Collecting Language Resources for Public Sector Multilingual Information Management	May 1, 2018	Machine TranslationManagement	—Unverified
A Workbench for Rapid Generation of Cross-Lingual Summaries	May 1, 2018	Automatic Post-EditingMachine Translation	CodeCode Available
SPADE: Evaluation Dataset for Monolingual Phrase Alignment	May 1, 2018	Machine TranslationParaphrase Identification	—Unverified
Extended HowNet 2.0 -- An Entity-Relation Common-Sense Representation Model	May 1, 2018	Common Sense ReasoningInformation Retrieval	—Unverified
A corpus of German political speeches from the 21st century	May 1, 2018	Keyword ExtractionMachine Translation	—Unverified
Morphology Injection for English-Malayalam Statistical Machine Translation	May 1, 2018	Machine TranslationTranslation	—Unverified
SemR-11: A Multi-Lingual Gold-Standard for Semantic Similarity and Relatedness for Eleven Languages	May 1, 2018	Information RetrievalMachine Translation	—Unverified
Teanga: A Linked Data based platform for Natural Language Processing	May 1, 2018	Machine TranslationPart-Of-Speech Tagging	—Unverified
Evaluating Domain Adaptation for Machine Translation Across Scenarios	May 1, 2018	Domain AdaptationMachine Translation	—Unverified
Evaluating EcoLexiCAT: a Terminology-Enhanced CAT Tool	May 1, 2018	Machine Translation	—Unverified
A Multilingual Dataset for Evaluating Parallel Sentence Extraction from Comparable Corpora	May 1, 2018	Machine TranslationSemantic Textual Similarity	—Unverified
Attention for Implicit Discourse Relation Recognition	May 1, 2018	Coreference ResolutionFeature Engineering	—Unverified
FooTweets: A Bilingual Parallel Corpus of World Cup Tweets	May 1, 2018	Machine TranslationSentiment Analysis	—Unverified
Auto-hMDS: Automatic Construction of a Large Heterogeneous Multilingual Multi-Document Summarization Corpus	May 1, 2018	Abstractive Text SummarizationDocument Summarization	CodeCode Available
Manual vs Automatic Bitext Extraction	May 1, 2018	Machine Translation	—Unverified
A Framework for the Needs of Different Types of Users in Multilingual Semantic Enrichment	May 1, 2018	Entity LinkingMachine Translation	—Unverified
SumeCzech: Large Czech News-Based Summarization Dataset	May 1, 2018	Document SummarizationMachine Translation	—Unverified
A Parallel Corpus of Arabic-Japanese News Articles	May 1, 2018	ArticlesMachine Translation	—Unverified
Building Named Entity Recognition Taggers via Parallel Corpora	May 1, 2018	Machine Translationnamed-entity-recognition	CodeCode Available
OpenSubtitles2018: Statistical Rescoring of Sentence Alignments in Large, Noisy Parallel Corpora	May 1, 2018	Machine TranslationSentence	—Unverified
A Hybrid Approach for Automatic Extraction of Bilingual Multiword Expressions from Parallel Corpora	May 1, 2018	Domain AdaptationInformation Retrieval	—Unverified
BULBasaa: A Bilingual Basaa-French Speech Corpus for the Evaluation of Language Documentation Tools	May 1, 2018	Machine Translation	—Unverified
A Neural Network Based Model for Loanword Identification in Uyghur	May 1, 2018	Language ModelingLanguage Modelling	—Unverified
Dynamic Sentence Sampling for Efficient Training of Neural Machine Translation	May 1, 2018	Machine TranslationNMT	—Unverified

Show:10 25 50

← PrevPage 131 of 216Next →

All datasets WMT2014 English-German WMT2014 English-French IWSLT2014 German-English ACES WMT2016 English-Romanian WMT2016 Romanian-English WMT2014 German-English IWSLT2015 German-English WMT2016 English-German IWSLT2015 English-Vietnamese IWSLT2015 English-German WMT2016 German-English

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Transformer Cycle (Rev)	BLEU score	35.14	—	Unverified
2	Noisy back-translation	BLEU score	35	—	Unverified
3	Transformer+Rep(Uni)	BLEU score	33.89	—	Unverified
4	T5-11B	BLEU score	32.1	—	Unverified
5	BiBERT	BLEU score	31.26	—	Unverified
6	Transformer + R-Drop	BLEU score	30.91	—	Unverified
7	Bi-SimCut	BLEU score	30.78	—	Unverified
8	BERT-fused NMT	BLEU score	30.75	—	Unverified
9	Data Diversification - Transformer	BLEU score	30.7	—	Unverified
10	SimCut	BLEU score	30.56	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer+BT (ADMIN init)	BLEU score	46.4	—	Unverified
2	Noisy back-translation	BLEU score	45.6	—	Unverified
3	mRASP+Fine-Tune	BLEU score	44.3	—	Unverified
4	Transformer + R-Drop	BLEU score	43.95	—	Unverified
5	Transformer (ADMIN init)	BLEU score	43.8	—	Unverified
6	Admin	BLEU score	43.8	—	Unverified
7	BERT-fused NMT	BLEU score	43.78	—	Unverified
8	MUSE(Paralllel Multi-scale Attention)	BLEU score	43.5	—	Unverified
9	T5	BLEU score	43.4	—	Unverified
10	Local Joint Self-attention	BLEU score	43.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PiNMT	BLEU score	40.43	—	Unverified
2	BiBERT	BLEU score	38.61	—	Unverified
3	Bi-SimCut	BLEU score	38.37	—	Unverified
4	Cutoff + Relaxed Attention + LM	BLEU score	37.96	—	Unverified
5	DRDA	BLEU score	37.95	—	Unverified
6	Transformer + R-Drop + Cutoff	BLEU score	37.9	—	Unverified
7	SimCut	BLEU score	37.81	—	Unverified
8	Cutoff+Knee	BLEU score	37.78	—	Unverified
9	Cutoff	BLEU score	37.6	—	Unverified
10	CipherDAug	BLEU score	37.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HWTSC-Teacher-Sim	Score	19.97	—	Unverified
2	MS-COMET-22	Score	19.89	—	Unverified
3	MS-COMET-QE-22	Score	19.76	—	Unverified
4	KG-BERTScore	Score	17.28	—	Unverified
5	metricx_xl_DA_2019	Score	17.17	—	Unverified
6	COMET-QE	Score	16.8	—	Unverified
7	COMET-22	Score	16.31	—	Unverified
8	UniTE-src	Score	15.68	—	Unverified
9	UniTE-ref	Score	15.38	—	Unverified
10	metricx_xxl_DA_2019	Score	15.24	—	Unverified