Cross-Lingual Document Classification

Cross-lingual document classification refers to the task of using data and models available for one language for which ample such resources are available (e.g., English) to solve classification tasks in another, commonly low-resource, language.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 25 papers

Title	Date	Tasks	Status	Hype	Score
MultiFiT: Efficient Multi-lingual Language Model Fine-tuning	Sep 10, 2019	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1	5
A Corpus for Multilingual Document Classification in Eight Languages	May 24, 2018	ClassificationCross-Lingual Document Classification	CodeCode Available	1	5
Multilingual and cross-lingual document classification: A meta-learning approach	Jan 27, 2021	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1	5
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models	Oct 4, 2019	Cross-Lingual Document ClassificationImage Generation	CodeCode Available	1	5
Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond	Dec 26, 2018	Cross-Lingual Bitext MiningCross-Lingual Document Classification	CodeCode Available	1	5
Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification	Jun 6, 2016	ClassificationCross-Lingual Document Classification	CodeCode Available	0	5
Bridging the domain gap in cross-lingual document classification	Sep 16, 2019	ClassificationCross-Domain Document Classification	CodeCode Available	0	5
Multilingual Distributed Representations without Word Alignment	Dec 20, 2013	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	0	5
BilBOWA: Fast Bilingual Distributed Representations without Word Alignments	Oct 9, 2014	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	0	5
Learning Crosslingual Word Embeddings without Bilingual Corpora	Jun 30, 2016	Bilingual Lexicon InductionCross-Lingual Document Classification	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets MLDoc Zero-Shot English-to-French MLDoc Zero-Shot English-to-Spanish MLDoc Zero-Shot English-to-Chinese MLDoc Zero-Shot English-to-German MLDoc Zero-Shot English-to-Russian MLDoc Zero-Shot English-to-Italian MLDoc Zero-Shot English-to-Japanese Reuters RCV1/RCV2 English-to-German Reuters RCV1/RCV2 German-to-English MLDoc Zero-Shot German-to-French

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.05	—	Unverified
2	MultiFiT, pseudo	Accuracy	89.42	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	77.95	—	Unverified
4	BiLSTM (UN)	Accuracy	74.52	—	Unverified
5	BiLSTM (Europarl)	Accuracy	72.83	—	Unverified
6	MultiCCA + CNN	Accuracy	72.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.8	—	Unverified
2	MultiFiT, pseudo	Accuracy	79.1	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	77.33	—	Unverified
4	MultiCCA + CNN	Accuracy	72.5	—	Unverified
5	BiLSTM (UN)	Accuracy	69.5	—	Unverified
6	BiLSTM (Europarl)	Accuracy	66.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	93.32	—	Unverified
2	MultiFiT, pseudo	Accuracy	82.48	—	Unverified
3	MultiCCA + CNN	Accuracy	74.73	—	Unverified
4	BiLSTM (UN)	Accuracy	71.97	—	Unverified
5	Massively Multilingual Sentence Embeddings	Accuracy	71.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	96.95	—	Unverified
2	MultiFiT, pseudo	Accuracy	91.62	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	84.78	—	Unverified
4	MultiCCA + CNN	Accuracy	81.2	—	Unverified
5	BiLSTM (Europarl)	Accuracy	71.83	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XLMft UDA	Accuracy	89.7	—	Unverified
2	MultiFiT, pseudo	Accuracy	67.83	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	67.78	—	Unverified
4	BiLSTM (UN)	Accuracy	61.42	—	Unverified
5	MultiCCA + CNN	Accuracy	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MultiFiT, pseudo	Accuracy	76.02	—	Unverified
2	Massively Multilingual Sentence Embeddings	Accuracy	69.43	—	Unverified
3	MultiCCA + CNN	Accuracy	69.38	—	Unverified
4	BiLSTM (Europarl)	Accuracy	60.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MultiFiT, pseudo	Accuracy	69.57	—	Unverified
2	MultiCCA + CNN	Accuracy	67.63	—	Unverified
3	Massively Multilingual Sentence Embeddings	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Biinclusion (Euro500kReuters)	Accuracy	92.7	—	Unverified
2	Bi+	Accuracy	88.1	—	Unverified
3	biCVM+	Accuracy	86.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Biinclusion (Euro500kReuters)	Accuracy	84.4	—	Unverified
2	Bi+	Accuracy	79.2	—	Unverified
3	biCVM+	Accuracy	76.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BiLSTM (Europarl)	Accuracy	75.45	—	Unverified