Cross-Lingual Document Classification

Cross-lingual document classification refers to the task of using data and models available for one language for which ample such resources are available (e.g., English) to solve classification tasks in another, commonly low-resource, language.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 25 papers

Title	Date	Tasks	Status	Hype
Multilingual and cross-lingual document classification: A meta-learning approach	Jan 27, 2021	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1
A Corpus for Multilingual Document Classification in Eight Languages	May 24, 2018	ClassificationCross-Lingual Document Classification	CodeCode Available	1
MultiFiT: Efficient Multi-lingual Language Model Fine-tuning	Sep 10, 2019	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models	Oct 4, 2019	Cross-Lingual Document ClassificationImage Generation	CodeCode Available	1
Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond	Dec 26, 2018	Cross-Lingual Bitext MiningCross-Lingual Document Classification	CodeCode Available	1
Exploiting Cross-Lingual Subword Similarities in Low-Resource Document Classification	Dec 22, 2018	ClassificationCross-Lingual Document Classification	—Unverified	0
A Multiplicative Model for Learning Distributed Text-Based Attribute Representations	Jun 10, 2014	AttributeAuthorship Attribution	—Unverified	0
Margin-aware Unsupervised Domain Adaptation for Cross-lingual Text Labeling	Nov 1, 2020	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0
Learning Cross-lingual Word Embeddings via Matrix Co-factorization	Jul 1, 2015	Cross-Lingual Document ClassificationCross-Lingual Word Embeddings	—Unverified	0
A Multi-task Approach to Learning Multilingual Representations	Jul 1, 2018	Cross-Lingual Document ClassificationDocument Classification	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets MLDoc Zero-Shot English-to-French MLDoc Zero-Shot English-to-Spanish MLDoc Zero-Shot English-to-Chinese MLDoc Zero-Shot English-to-German MLDoc Zero-Shot English-to-Russian MLDoc Zero-Shot English-to-Italian MLDoc Zero-Shot English-to-Japanese Reuters RCV1/RCV2 English-to-German Reuters RCV1/RCV2 German-to-English MLDoc Zero-Shot German-to-French

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.05	—	Unverified
2	MultiFiT, pseudo	Accuracy	89.42	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	77.95	—	Unverified
4	BiLSTM (UN)	Accuracy	74.52	—	Unverified
5	BiLSTM (Europarl)	Accuracy	72.83	—	Unverified
6	MultiCCA + CNN	Accuracy	72.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.8	—	Unverified
2	MultiFiT, pseudo	Accuracy	79.1	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	77.33	—	Unverified
4	MultiCCA + CNN	Accuracy	72.5	—	Unverified
5	BiLSTM (UN)	Accuracy	69.5	—	Unverified
6	BiLSTM (Europarl)	Accuracy	66.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	93.32	—	Unverified
2	MultiFiT, pseudo	Accuracy	82.48	—	Unverified
3	MultiCCA + CNN	Accuracy	74.73	—	Unverified
4	BiLSTM (UN)	Accuracy	71.97	—	Unverified
5	Massively Multilingual Sentence Embeddings	Accuracy	71.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.95	—	Unverified
2	MultiFiT, pseudo	Accuracy	91.62	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	84.78	—	Unverified
4	MultiCCA + CNN	Accuracy	81.2	—	Unverified
5	BiLSTM (Europarl)	Accuracy	71.83	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	89.7	—	Unverified
2	MultiFiT, pseudo	Accuracy	67.83	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	67.78	—	Unverified
4	BiLSTM (UN)	Accuracy	61.42	—	Unverified
5	MultiCCA + CNN	Accuracy	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MultiFiT, pseudo	Accuracy	76.02	—	Unverified
2	Massively Multilingual Sentence Embeddings	Accuracy	69.43	—	Unverified
3	MultiCCA + CNN	Accuracy	69.38	—	Unverified
4	BiLSTM (Europarl)	Accuracy	60.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MultiFiT, pseudo	Accuracy	69.57	—	Unverified
2	MultiCCA + CNN	Accuracy	67.63	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Biinclusion (Euro500kReuters)	Accuracy	92.7	—	Unverified
2	Bi+	Accuracy	88.1	—	Unverified
3	biCVM+	Accuracy	86.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Biinclusion (Euro500kReuters)	Accuracy	84.4	—	Unverified
2	Bi+	Accuracy	79.2	—	Unverified
3	biCVM+	Accuracy	76.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BiLSTM (Europarl)	Accuracy	75.45	—	Unverified