Lemmatization

Lemmatization is a process of determining a base or dictionary form (lemma) for a given surface form. Especially for languages with rich morphology it is important to be able to normalize words into their base forms to better support for example search engines and linguistic studies. Main difficulties in Lemmatization arise from encountering previously unseen words during inference time as well as disambiguating ambiguous surface forms which can be inflected variants of several different base forms depending on the context.

Source: Universal Lemmatizer: A Sequence to Sequence Model for Lemmatizing Universal Dependencies Treebanks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 351 papers

Title	Date	Tasks	Status
Exploring the Use of Foundation Models for Named Entity Recognition and Lemmatization Tasks in Slavic Languages	Apr 11, 2023	Lemmatizationnamed-entity-recognition	—Unverified
CNGL-CORE: Referential Translation Machines for Measuring Semantic Similarity	Jun 1, 2013	LemmatizationMachine Translation	—Unverified
A Morphologically Annotated Corpus of Emirati Arabic	May 1, 2018	LemmatizationMachine Translation	—Unverified
Improving Neural Translation Models with Linguistic Factors	Dec 1, 2016	Constituency ParsingDependency Parsing	—Unverified
A Publicly Available Cross-Platform Lemmatizer for Bulgarian	Jun 13, 2015	LemmatizationMORPH	—Unverified
FOLK-Gold ― A Gold Standard for Part-of-Speech-Tagging of Spoken German	May 1, 2016	LemmatizationPart-Of-Speech Tagging	—Unverified
An NLP Pipeline for Coptic	Aug 1, 2016	Dependency ParsingLemmatization	—Unverified
First Steps towards the Semi-automatic Development of a Wordformation-based Lexicon of Latin	May 1, 2012	Information RetrievalLemmatization	—Unverified
Few-Shot and Zero-Shot Learning for Historical Text Normalization	Mar 12, 2019	LemmatizationMulti-Task Learning	—Unverified
Gender Profiling for Slovene Twitter communication: the Influence of Gender Marking, Content and Style	Apr 1, 2017	Gender ClassificationGeneral Classification	—Unverified
Generating a Gold Standard for a Swedish Sentiment Lexicon	May 1, 2018	LemmatizationMachine Translation	—Unverified
GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian	Dec 29, 2024	Information RetrievalLEMMA	—Unverified
Comparison of Current Approaches to Lemmatization: A Case Study in Estonian	Apr 23, 2024	ClassificationLemmatization	—Unverified
H2-Golden-Retriever: Methodology and Tool for an Evidence-Based Hydrogen Research Grantsmanship	Nov 16, 2022	Lemmatizationnamed-entity-recognition	—Unverified
Handling Unknown Words in Arabic FST Morphology	Jul 1, 2012	Lemmatization	—Unverified
Harmonizing Different Lemmatization Strategies for Building a Knowledge Base of Linguistic Resources for Latin	Aug 1, 2019	LEMMALemmatization	—Unverified
Constraint 2021: Machine Learning Models for COVID-19 Fake News Detection Shared Task	Jan 11, 2021	BIG-bench Machine LearningFake News Detection	—Unverified
HHU at SemEval-2016 Task 1: Multiple Approaches to Measuring Semantic Textual Similarity	Jun 1, 2016	LemmatizationNamed Entity Recognition (NER)	—Unverified
Holaaa!! writin like u talk is kewl but kinda hard 4 NLP	May 1, 2012	Domain AdaptationLanguage Modelling	—Unverified
How low is too low? A monolingual take on lemmatisation in Indian languages	Jun 1, 2021	Data AugmentationLemmatization	—Unverified
Chimera -- Three Heads for English-to-Czech Translation	Aug 1, 2013	LemmatizationMachine Translation	—Unverified
A Morphological Analyzer for Shipibo-Konibo	Oct 1, 2018	LemmatizationMachine Translation	—Unverified
Illinois-LH: A Denotational and Distributional Approach to Semantics	Aug 1, 2014	LemmatizationNatural Language Inference	—Unverified
Context Sensitive Neural Lemmatization with Lematus	Jun 1, 2018	DecoderLemmatization	—Unverified
Fast Query Expansion on an Accounting Corpus using Sub-Word Embeddings	Jun 1, 2018	Information RetrievalLemmatization	—Unverified

Show:10 25 50

← PrevPage 6 of 15Next →

No leaderboard results yet.