Lemmatization

Lemmatization is a process of determining a base or dictionary form (lemma) for a given surface form. Especially for languages with rich morphology it is important to be able to normalize words into their base forms to better support for example search engines and linguistic studies. Main difficulties in Lemmatization arise from encountering previously unseen words during inference time as well as disambiguating ambiguous surface forms which can be inflected variants of several different base forms depending on the context.

Source: Universal Lemmatizer: A Sequence to Sequence Model for Lemmatizing Universal Dependencies Treebanks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 351 papers

Title	Date	Tasks	Status	Score
Morphological parsing of low‑resource languages	May 29, 2019	LemmatizationMorphological Analysis	CodeCode Available	5
Neural Transition-based String Transduction for Limited-Resource Setting in Morphology	Aug 1, 2018	LemmatizationMachine Translation	CodeCode Available	5
LemmaTag: Jointly Tagging and Lemmatizing for Morphologically Rich Languages with BRNNs	Oct 1, 2018	LemmatizationMachine Translation	CodeCode Available	5
Joint Learning of POS and Dependencies for Multilingual Universal Dependency Parsing	Oct 1, 2018	Dependency ParsingLemmatization	CodeCode Available	5
IUCM at SemEval-2018 Task 11: Similar-Topic Texts as a Comprehension Knowledge Source	Jun 1, 2018	ClusteringLemmatization	CodeCode Available	5
NLP-Cube: End-to-End Raw Text Processing With Neural Networks	Oct 1, 2018	LemmatizationSentence	CodeCode Available	5
Imitation Learning for Neural Morphological String Transduction	Aug 31, 2018	Imitation LearningLemmatization	CodeCode Available	5
Heidelberg-Boston @ SIGTYP 2024 Shared Task: Enhancing Low-Resource Language Analysis With Character-Aware Hierarchical Transformers	May 30, 2024	LemmatizationMorphological Tagging	CodeCode Available	5
Improving Lemmatization of Non-Standard Languages with Joint Learning	Mar 16, 2019	DecoderLanguage Modeling	CodeCode Available	5
Evaluating Shortest Edit Script Methods for Contextual Lemmatization	Mar 25, 2024	LEMMALemmatization	CodeCode Available	5
Enhancing Sequence-to-Sequence Neural Lemmatization with External Resources	Jan 28, 2021	Data AugmentationDecoder	CodeCode Available	5
Knowledge Authoring with Factual English	Aug 5, 2022	LemmatizationPart-Of-Speech Tagging	CodeCode Available	5
Transformers on Multilingual Clause-Level Morphology	Nov 3, 2022	Data AugmentationLanguage Modelling	CodeCode Available	5
Integrated Sequence Tagging for Medieval Latin Using Deep Representation Learning	Mar 4, 2016	LEMMALemmatization	CodeCode Available	5
Urdu Summary Corpus	May 1, 2016	ArticlesDocument Summarization	CodeCode Available	5
CMU-01 at the SIGMORPHON 2019 Shared Task on Crosslinguality and Context in Morphology	Jul 23, 2019	LEMMALemmatization	CodeCode Available	5
From Text to Lexicon: Bridging the Gap between Word Embeddings and Lexical Resources	Aug 1, 2018	Coreference ResolutionLemmatization	CodeCode Available	5
Grammatical gender associations outweigh topical gender bias in crosslinguistic word embeddings	May 18, 2020	Cultural Vocal Bursts Intensity PredictionLemmatization	CodeCode Available	5
CELI: An Experiment with Cross Language Textual Entailment	Jul 1, 2012	LemmatizationNamed Entity Recognition (NER)	—Unverified	0
CBNU System for SIGMORPHON 2019 Shared Task 2: a Pipeline Model	Aug 1, 2019	LEMMALemmatization	—Unverified	0
ANNLOR: A Na\" Notation-system for Lexical Outputs Ranking	Jul 1, 2012	LemmatizationLexical Simplification	—Unverified	0
Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages	May 1, 2012	Lemmatization	—Unverified	0
Building a multilingual parallel corpus for human users	May 1, 2012	Lemmatization	—Unverified	0
An Extensible Multilingual Open Source Lemmatizer	Sep 1, 2017	Information RetrievalLEMMA	—Unverified	0
AI-KU: Using Co-Occurrence Modeling for Semantic Similarity	Aug 1, 2014	Information RetrievalLanguage Modelling	—Unverified	0
Building a Lemmatizer and a Spell-checker for Sorani Kurdish	Sep 27, 2018	Language ModelingLanguage Modelling	—Unverified	0
Build Fast and Accurate Lemmatization for Arabic	Oct 18, 2017	Information RetrievalLemmatization	—Unverified	0
An extended morphological analyzer of German handling verbal forms with separated separable particles (Un analyseur morphologique \'etendu de l'allemand traitant les formes verbales \`a particule s\'epar\'ee) [in French]	Jun 1, 2013	LemmatizationMorphological Analysis	—Unverified	0
Breaking the Fake News Barrier: Deep Learning Approaches in Bangla Language	Jan 30, 2025	Lemmatization	—Unverified	0
An Evaluation of Lexicon-based Sentiment Analysis Techniques for the Plays of Gotthold Ephraim Lessing	Aug 1, 2018	LemmatizationSentiment Analysis	—Unverified	0
A Gradient Boosting-Seq2Seq System for Latin POS Tagging and Lemmatization	May 1, 2020	LemmatizationPOS	—Unverified	0
Adapting and evaluating a generic term extraction tool	May 1, 2012	LemmatizationTerm Extraction	—Unverified	0
bleu2vec: the Painfully Familiar Metric on Continuous Vector Space Steroids	Sep 1, 2017	LemmatizationMachine Translation	—Unverified	0
BioRo: The Biomedical Corpus for the Romanian Language	May 1, 2018	Lemmatization	—Unverified	0
A Neural Lemmatizer for Bengali	May 1, 2016	LEMMALemmatization	—Unverified	0
Biaffine Dependency and Semantic Graph Parsing for EnhancedUniversal Dependencies	Aug 1, 2021	Dependency ParsingLemmatization	—Unverified	0
An ELECTRA Model for Latin Token Tagging Tasks	Jun 1, 2022	LEMMALemmatization	—Unverified	0
AGILe: The First Lemmatizer for Ancient Greek Inscriptions	Jun 1, 2022	Lemmatization	—Unverified	0
Distributional regularities of verbs and verbal adjectives: Treebank evidence and broader implications	Jan 1, 2017	LemmatizationWord Embeddings	—Unverified	0
Better Together: Modern Methods Plus Traditional Thinking in NP Alignment	May 1, 2020	LemmatizationMachine Translation	—Unverified	0
BabyFST - Towards a Finite-State Based Computational Model of Ancient Babylonian	May 1, 2020	LemmatizationPOS	—Unverified	0
Development of email classifier in Brazilian Portuguese using feature selection for automatic response	Jul 8, 2019	Classificationfeature selection	—Unverified	0
Development of a rule-based lemmatization algorithm through Finite State Machine for Uzbek language	Oct 28, 2022	LEMMALemmatization	—Unverified	0
Automatic Translation of English Text to Indian Sign Language Synthetic Animations	Dec 1, 2016	LemmatizationTranslation	—Unverified	0
An efficient language independent toolkit for complete morphological disambiguation	May 1, 2014	Language ModellingLemmatization	—Unverified	0
Acquisition of semantic relations between terms: how far can we get with standard NLP tools?	Dec 1, 2016	Coreference ResolutionLemmatization	—Unverified	0
Diachronic Parsing of Pre-Standard Irish	Jun 1, 2022	Dependency ParsingLemmatization	—Unverified	0
Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection	Jun 1, 2022	Lemmatizationnamed-entity-recognition	—Unverified	0
A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis	Jun 3, 2021	LemmatizationOpinion Mining	—Unverified	0
Developing New Linguistic Resources and Tools for the Galician Language	May 1, 2018	LemmatizationNamed Entity Recognition (NER)	—Unverified	0

Show:10 25 50

← PrevPage 2 of 8Next →

No leaderboard results yet.