Cross-Lingual Document Classification

Cross-lingual document classification refers to the task of using data and models available for one language for which ample such resources are available (e.g., English) to solve classification tasks in another, commonly low-resource, language.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 25 papers

Title	Date	Tasks	Status	Hype
A Corpus for Multilingual Document Classification in Eight Languages	May 24, 2018	ClassificationCross-Lingual Document Classification	CodeCode Available	1
Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond	Dec 26, 2018	Cross-Lingual Bitext MiningCross-Lingual Document Classification	CodeCode Available	1
MultiFiT: Efficient Multi-lingual Language Model Fine-tuning	Sep 10, 2019	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1
Multilingual and cross-lingual document classification: A meta-learning approach	Jan 27, 2021	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models	Oct 4, 2019	Cross-Lingual Document ClassificationImage Generation	CodeCode Available	1
Multilingual Seq2seq Training with Similarity Loss for Cross-Lingual Document Classification	Jul 1, 2018	Cross-Lingual Document ClassificationCross-Lingual Transfer	—Unverified	0
NMT-based Cross-lingual Document Embeddings	Jul 29, 2018	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
Learning Cross-lingual Word Embeddings via Matrix Co-factorization	Jul 1, 2015	Cross-Lingual Document ClassificationCross-Lingual Word Embeddings	—Unverified	0
Exploiting Cross-Lingual Subword Similarities in Low-Resource Document Classification	Dec 22, 2018	ClassificationCross-Lingual Document Classification	—Unverified	0
A Multiplicative Model for Learning Distributed Text-Based Attribute Representations	Jun 10, 2014	AttributeAuthorship Attribution	—Unverified	0
A Multi-task Approach to Learning Multilingual Representations	Jul 1, 2018	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
Learning Monolingual Compositional Representations via Bilingual Supervision	Aug 1, 2016	Cross-Lingual Document ClassificationCross-Lingual Transfer	—Unverified	0
Margin-aware Unsupervised Domain Adaptation for Cross-lingual Text Labeling	Nov 1, 2020	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
Variational learning across domains with triplet information	Jun 22, 2018	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
Variational learning across domains with triplet information	Oct 22, 2018	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
Wasserstein distances for evaluating cross-lingual embeddings	Oct 24, 2019	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
KIT-Multi: A Translation-Oriented Multilingual Embedding Corpus	May 1, 2018	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
Learning Cross-lingual Representations with Matrix Factorization	Jun 1, 2016	Cross-Lingual Document ClassificationCross-Lingual Semantic Textual Similarity	—Unverified	0
BilBOWA: Fast Bilingual Distributed Representations without Word Alignments	Oct 9, 2014	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	0
Learning Crosslingual Word Embeddings without Bilingual Corpora	Jun 30, 2016	Bilingual Lexicon InductionCross-Lingual Document Classification	CodeCode Available	0
Multilingual Distributed Representations without Word Alignment	Dec 20, 2013	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	0
Multilingual Models for Compositional Distributed Semantics	Apr 17, 2014	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	0
Robust Cross-lingual Embeddings from Parallel Sentences	Dec 28, 2019	Cross-Lingual Document ClassificationCross-Lingual Word Embeddings	CodeCode Available	0
Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification	Jun 6, 2016	ClassificationCross-Lingual Document Classification	CodeCode Available	0
Bridging the domain gap in cross-lingual document classification	Sep 16, 2019	ClassificationCross-Domain Document Classification	CodeCode Available	0

Show:10 25 50

All datasets MLDoc Zero-Shot English-to-French MLDoc Zero-Shot English-to-Spanish MLDoc Zero-Shot English-to-Chinese MLDoc Zero-Shot English-to-German MLDoc Zero-Shot English-to-Russian MLDoc Zero-Shot English-to-Italian MLDoc Zero-Shot English-to-Japanese Reuters RCV1/RCV2 English-to-German Reuters RCV1/RCV2 German-to-English MLDoc Zero-Shot German-to-French

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.05	—	Unverified
2	MultiFiT, pseudo	Accuracy	89.42	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	77.95	—	Unverified
4	BiLSTM (UN)	Accuracy	74.52	—	Unverified
5	BiLSTM (Europarl)	Accuracy	72.83	—	Unverified
6	MultiCCA + CNN	Accuracy	72.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.8	—	Unverified
2	MultiFiT, pseudo	Accuracy	79.1	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	77.33	—	Unverified
4	MultiCCA + CNN	Accuracy	72.5	—	Unverified
5	BiLSTM (UN)	Accuracy	69.5	—	Unverified
6	BiLSTM (Europarl)	Accuracy	66.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	93.32	—	Unverified
2	MultiFiT, pseudo	Accuracy	82.48	—	Unverified
3	MultiCCA + CNN	Accuracy	74.73	—	Unverified
4	BiLSTM (UN)	Accuracy	71.97	—	Unverified
5	Massively Multilingual Sentence Embeddings	Accuracy	71.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.95	—	Unverified
2	MultiFiT, pseudo	Accuracy	91.62	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	84.78	—	Unverified
4	MultiCCA + CNN	Accuracy	81.2	—	Unverified
5	BiLSTM (Europarl)	Accuracy	71.83	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	89.7	—	Unverified
2	MultiFiT, pseudo	Accuracy	67.83	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	67.78	—	Unverified
4	BiLSTM (UN)	Accuracy	61.42	—	Unverified
5	MultiCCA + CNN	Accuracy	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MultiFiT, pseudo	Accuracy	76.02	—	Unverified
2	Massively Multilingual Sentence Embeddings	Accuracy	69.43	—	Unverified
3	MultiCCA + CNN	Accuracy	69.38	—	Unverified
4	BiLSTM (Europarl)	Accuracy	60.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MultiFiT, pseudo	Accuracy	69.57	—	Unverified
2	MultiCCA + CNN	Accuracy	67.63	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Biinclusion (Euro500kReuters)	Accuracy	92.7	—	Unverified
2	Bi+	Accuracy	88.1	—	Unverified
3	biCVM+	Accuracy	86.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Biinclusion (Euro500kReuters)	Accuracy	84.4	—	Unverified
2	Bi+	Accuracy	79.2	—	Unverified
3	biCVM+	Accuracy	76.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BiLSTM (Europarl)	Accuracy	75.45	—	Unverified