Lemmatization

Lemmatization is a process of determining a base or dictionary form (lemma) for a given surface form. Especially for languages with rich morphology it is important to be able to normalize words into their base forms to better support for example search engines and linguistic studies. Main difficulties in Lemmatization arise from encountering previously unseen words during inference time as well as disambiguating ambiguous surface forms which can be inflected variants of several different base forms depending on the context.

Source: Universal Lemmatizer: A Sequence to Sequence Model for Lemmatizing Universal Dependencies Treebanks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 351 papers

Title	Date	Tasks	Status
DKPro Similarity: An Open Source Framework for Text Similarity	Aug 1, 2013	LemmatizationSemantic Textual Similarity	—Unverified
Do we need bigram alignment models? On the effect of alignment quality on transduction accuracy in G2P	Sep 1, 2015	LemmatizationTransliteration	—Unverified
DT\_Team at SemEval-2017 Task 1: Semantic Similarity Using Alignments, Sentence-Level Embeddings and Gaussian Mixture Model Output	Aug 1, 2017	LemmatizationSemantic Similarity	—Unverified
ECNU at SemEval-2017 Task 4: Evaluating Effective Features on Machine Learning Methods for Twitter Message Polarity Classification	Aug 1, 2017	BIG-bench Machine LearningFeature Engineering	—Unverified
eFontes. Part of Speech Tagging and Lemmatization of Medieval Latin Texts.A Cross-Genre Survey	Jun 29, 2024	Lemmatizationnamed-entity-recognition	—Unverified
E-law Module Supporting Lawyers in the Process of Knowledge Discovery from Legal Documents	Sep 1, 2015	Information RetrievalLemmatization	—Unverified
Impact of Feature Selection on Micro-Text Classification	Aug 27, 2017	ClassificationClustering	—Unverified
EmpiriST Corpus 2.0: Adding Manual Normalization, Lemmatization and Semantic Tagging to a German Web and CMC Corpus	May 1, 2020	Lemmatization	—Unverified
End-to-end mBERT based Seq2seq Enhanced Dependency Parser with Linguistic Typology knowledge	Aug 1, 2021	Dependency ParsingLemmatization	—Unverified
English-French Document Alignment Based on Keywords and Statistical Translation	Aug 1, 2016	Boundary DetectionKeyword Extraction	—Unverified
Enhancing Lemmatization for Mongolian and its Application to Statistical Machine Translation	Dec 1, 2012	Information RetrievalLemmatization	—Unverified
Breaking the Fake News Barrier: Deep Learning Approaches in Bangla Language	Jan 30, 2025	Lemmatization	—Unverified
Enhancing Sumerian Lemmatization by Unsupervised Named-Entity Recognition	May 1, 2015	Cultural Vocal Bursts Intensity PredictionLemmatization	—Unverified
ENIAM: Categorial Syntactic-Semantic Parser for Polish	Dec 1, 2016	Information RetrievalLemmatization	—Unverified
Enrichir et raisonner sur des espaces s\'emantiques pour l'attribution de mots-cl\'es (Enriching and reasoning on semantic spaces for keyword extraction) [in French]	Jun 1, 2012	ChunkingKeyword Extraction	—Unverified
Evaluating Contextualized Embeddings on 54 Languages in POS Tagging, Lemmatization and Dependency Parsing	Aug 20, 2019	Dependency ParsingLemmatization	—Unverified
Evaluating Diversity of Multiword Expressions in Annotated Text	Oct 1, 2022	DiversityLemmatization	—Unverified
Evaluating Lemmatization Models for Machine-Assisted Corpus-Dictionary Linkage	May 1, 2014	LemmatizationMorphological Analysis	—Unverified
Building a multilingual parallel corpus for human users	May 1, 2012	Lemmatization	—Unverified
Évaluation de méthodes et d’outils pour la lemmatisation automatique du français médiéval (Evaluation of methods and tools for automatic lemmatization in Old French)	Jun 1, 2021	Lemmatization	—Unverified
Evaluation of Finite State Morphological Analyzers Based on Paradigm Extraction from Wiktionary	Sep 1, 2017	Language ModelingLanguage Modelling	—Unverified
Evaluation of the Accuracy of the BGLemmatizer	Jun 13, 2015	Lemmatization	—Unverified
Arabic Word-level Readability Visualization for Assisted Text Simplification	Oct 19, 2022	LemmatizationText Simplification	—Unverified
Exploring Properties of Intralingual and Interlingual Association Measures Visually	May 1, 2017	Language ModelingLanguage Modelling	—Unverified
CELI: An Experiment with Cross Language Textual Entailment	Jul 1, 2012	LemmatizationNamed Entity Recognition (NER)	—Unverified
Exploring the Use of Foundation Models for Named Entity Recognition and Lemmatization Tasks in Slavic Languages	Apr 11, 2023	Lemmatizationnamed-entity-recognition	—Unverified
CNGL-CORE: Referential Translation Machines for Measuring Semantic Similarity	Jun 1, 2013	LemmatizationMachine Translation	—Unverified
A Morphologically Annotated Corpus of Emirati Arabic	May 1, 2018	LemmatizationMachine Translation	—Unverified
Improving Neural Translation Models with Linguistic Factors	Dec 1, 2016	Constituency ParsingDependency Parsing	—Unverified
A Publicly Available Cross-Platform Lemmatizer for Bulgarian	Jun 13, 2015	LemmatizationMORPH	—Unverified
FOLK-Gold ― A Gold Standard for Part-of-Speech-Tagging of Spoken German	May 1, 2016	LemmatizationPart-Of-Speech Tagging	—Unverified
An NLP Pipeline for Coptic	Aug 1, 2016	Dependency ParsingLemmatization	—Unverified
First Steps towards the Semi-automatic Development of a Wordformation-based Lexicon of Latin	May 1, 2012	Information RetrievalLemmatization	—Unverified
Few-Shot and Zero-Shot Learning for Historical Text Normalization	Mar 12, 2019	LemmatizationMulti-Task Learning	—Unverified
Gender Profiling for Slovene Twitter communication: the Influence of Gender Marking, Content and Style	Apr 1, 2017	Gender ClassificationGeneral Classification	—Unverified
Generating a Gold Standard for a Swedish Sentiment Lexicon	May 1, 2018	LemmatizationMachine Translation	—Unverified
GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian	Dec 29, 2024	Information RetrievalLEMMA	—Unverified
Comparison of Current Approaches to Lemmatization: A Case Study in Estonian	Apr 23, 2024	ClassificationLemmatization	—Unverified
H2-Golden-Retriever: Methodology and Tool for an Evidence-Based Hydrogen Research Grantsmanship	Nov 16, 2022	Lemmatizationnamed-entity-recognition	—Unverified
Handling Unknown Words in Arabic FST Morphology	Jul 1, 2012	Lemmatization	—Unverified
Harmonizing Different Lemmatization Strategies for Building a Knowledge Base of Linguistic Resources for Latin	Aug 1, 2019	LEMMALemmatization	—Unverified
Constraint 2021: Machine Learning Models for COVID-19 Fake News Detection Shared Task	Jan 11, 2021	BIG-bench Machine LearningFake News Detection	—Unverified
HHU at SemEval-2016 Task 1: Multiple Approaches to Measuring Semantic Textual Similarity	Jun 1, 2016	LemmatizationNamed Entity Recognition (NER)	—Unverified
Holaaa!! writin like u talk is kewl but kinda hard 4 NLP	May 1, 2012	Domain AdaptationLanguage Modelling	—Unverified
How low is too low? A monolingual take on lemmatisation in Indian languages	Jun 1, 2021	Data AugmentationLemmatization	—Unverified
Chimera -- Three Heads for English-to-Czech Translation	Aug 1, 2013	LemmatizationMachine Translation	—Unverified
A Morphological Analyzer for Shipibo-Konibo	Oct 1, 2018	LemmatizationMachine Translation	—Unverified
Illinois-LH: A Denotational and Distributional Approach to Semantics	Aug 1, 2014	LemmatizationNatural Language Inference	—Unverified
Context Sensitive Neural Lemmatization with Lematus	Jun 1, 2018	DecoderLemmatization	—Unverified
Fast Query Expansion on an Accounting Corpus using Sub-Word Embeddings	Jun 1, 2018	Information RetrievalLemmatization	—Unverified

Show:10 25 50

← PrevPage 3 of 8Next →

No leaderboard results yet.