Language Identification

Language identification is the task of determining the language of a text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 794 papers

Title	Date	Tasks	Status
Language Identification in Code-Switched Text Using Conditional Random Fields and Babelnet	Nov 1, 2016	Language Identification	—Unverified
Language Identification in Code-Switching Scenario	Oct 1, 2014	Information RetrievalLanguage Identification	—Unverified
Language Identification of Bengali-English Code-Mixed data using Character & Phonetic based LSTM Models	Mar 10, 2018	Language Identification	—Unverified
Language Identification of Devanagari Poems	Dec 30, 2020	BIG-bench Machine LearningLanguage Identification	—Unverified
Language Identification of Hindi-English tweets using code-mixed BERT	Jul 2, 2021	Language IdentificationTransfer Learning	—Unverified
Language Identification on Massive Datasets of Short Message using an Attention Mechanism CNN	Oct 15, 2019	DecoderLanguage Identification	—Unverified
Language Identification using Classifier Ensembles	Sep 1, 2015	Information RetrievalLanguage Identification	—Unverified
Language Identification with Deep Bottleneck Features	Sep 18, 2018	Language IdentificationSpeech Language Identification	—Unverified
Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions	Apr 24, 2021	Language Identificationspeech-recognition	—Unverified
Language ID Prediction from Speech Using Self-Attentive Pooling	Jun 1, 2021	Language Identificationspeech-recognition	—Unverified
Language Lexicons for Hindi-English Multilingual Text Processing	Jun 29, 2021	Language Identification	—Unverified
Language Model Adaptation for Language and Dialect Identification of Text	Mar 26, 2019	Dialect IdentificationLanguage Identification	—Unverified
Language Modeling for Code-Mixing: The Role of Linguistic Theory based Synthetic Data	Jul 1, 2018	Automatic Speech Recognition (ASR)Language Identification	—Unverified
Language Modeling with Functional Head Constraint for Code Switching Speech Recognition	Oct 1, 2014	Language IdentificationLanguage Modeling	—Unverified
Language Transfer Hypotheses with Linear SVM Weights	Oct 1, 2014	Language AcquisitionLanguage Identification	—Unverified
Language variety identification in Spanish tweets	Oct 1, 2014	Language IdentificationLanguage Modelling	—Unverified
Large Scale Lexical Analysis	May 1, 2012	Language IdentificationLexical Analysis	—Unverified
Large-Scale Native Language Identification with Cross-Corpus Evaluation	May 1, 2015	Cross-corpusLanguage Acquisition	—Unverified
Learning Multilingual Meta-Embeddings for Code-Switching Named Entity Recognition	Aug 1, 2019	Language IdentificationMME	—Unverified
Learning with learner corpora: Using the TLE for native language identification	May 1, 2017	Language AcquisitionLanguage Identification	—Unverified
Lessons Learned in ATCO2: 5000 hours of Air Traffic Control Communications for Robust Automatic Speech Recognition and Understanding	May 2, 2023	Automatic Speech RecognitionLanguage Identification	—Unverified
Leveraging Data-Driven Methods in Word-Level Language Identification for a Multilingual Alpine Heritage Corpus	Jun 1, 2016	Language IdentificationLemmatization	—Unverified
Leveraging Language Identification to Enhance Code-Mixed Text Classification	Jun 8, 2023	ClassificationHate Speech Detection	—Unverified
Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition	Dec 15, 2023	Automatic Speech RecognitionLanguage Identification	—Unverified
Leveraging Latent Representations of Speech for Indian Language Identification	Dec 1, 2020	DiversityFeature Engineering	—Unverified
Leveraging Open-Source Large Language Models for Native Language Identification	Sep 15, 2024	Feature EngineeringLanguage Acquisition	—Unverified
Lexical Normalization for Code-switched Data and its Effect on POS-tagging	Jun 1, 2020	Language IdentificationLexical Normalization	—Unverified
LIDE: Language Identification from Text Documents	Jan 13, 2017	Language Identification	—Unverified
LIIR at SemEval-2020 Task 12: A Cross-Lingual Augmentation Approach for Multilingual Offensive Language Identification	May 7, 2020	Abuse DetectionLanguage Identification	—Unverified
LILI: A Simple Language Independent Approach for Language Identification	Dec 1, 2016	Language Identification	—Unverified
LIMSI's participation to the 2013 shared task on Native Language Identification	Jun 1, 2013	Language IdentificationNative Language Identification	—Unverified
LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation	May 9, 2020	Language Identificationnamed-entity-recognition	—Unverified
Linguagrid: a network of Linguistic and Semantic Services for the Italian Language.	May 1, 2012	ClusteringDependency Parsing	—Unverified
Linguistic Features of Sarcasm and Metaphor Production Quality	Jun 1, 2018	Language Identification	—Unverified
Linguistic Profiling based on General--purpose Features and Native Language Identification	Jun 1, 2013	Dependency ParsingLanguage Identification	—Unverified
Linguistic Profiling of Texts Across Textual Genres and Readability Levels. An Exploratory Study on Italian Fictional Prose	Sep 1, 2013	Language IdentificationText Classification	—Unverified
LISAC FSDM-USMBA Team at SemEval-2020 Task 12: Overcoming AraBERT's pretrain-finetune discrepancy for Arabic offensive language identification	Dec 1, 2020	Language Identification	—Unverified
Listen, Read, and Identify: Multimodal Singing Language Identification of Music	Mar 2, 2021	Language Identification	—Unverified
Literary and Colloquial Dialect Identification for Tamil using Acoustic Features	Aug 27, 2024	Automatic Speech RecognitionDialect Identification	—Unverified
Low-Resource Spoken Language Identification Using Self-Attentive Pooling and Deep 1D Time-Channel Separable Convolutions	May 31, 2021	Language Identificationspeech-recognition	—Unverified
LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific BERT?	Aug 3, 2020	Language Identification	—Unverified
LUC at ComMA-2021 Shared Task: Multilingual Gender Biased and Communal Language Identification without using linguistic features	Dec 19, 2021	Language Identification	—Unverified
Lump at SemEval-2017 Task 1: Towards an Interlingua Semantic Similarity	Aug 1, 2017	Language IdentificationMachine Translation	—Unverified
Machine Learning Based Source Code Classification Using Syntax Oriented Features	Mar 4, 2017	BIG-bench Machine LearningClassification	—Unverified
Machine Learning for Rhetorical Figure Detection: More Chiasmus with Less Annotation	May 1, 2017	BIG-bench Machine LearningLanguage Identification	—Unverified
Malayalam Sign Language Identification using Finetuned YOLOv8 and Computer Vision Techniques	May 8, 2024	Language Identification	—Unverified
Mandarin-English Code-switching Speech Recognition with Self-supervised Speech Representation Models	Oct 7, 2021	Language IdentificationSelf-Supervised Learning	—Unverified
Mapping Languages: The Corpus of Global Language Use	Apr 2, 2020	Language Identification	—Unverified
MASR: Multi-label Aware Speech Representation	Jul 20, 2023	Emotion RecognitionLanguage Identification	—Unverified
Maximizing Classification Accuracy in Native Language Identification	Jun 1, 2013	ClassificationGeneral Classification	—Unverified

Show:10 25 50

← PrevPage 8 of 16Next →

All datasets VOXLINGUA107 GlotLID-C Nordic Language Identification OpenSubtitles Universal Dependencies VoxForge

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	wav2vec 2.0 LV-60K	Error rate	7.2	—	Unverified
2	XLS-R	Error rate	5.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GlotLID	Macro F1	0.98	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FastText	Accuracy	0.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Apple bi-LSTM	Accuracy	91.37	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Apple bi-LSTM	Accuracy	86.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ConformerG-P	Accuracy	99.8	—	Unverified