Lexical Normalization

Lexical normalization is the task of translating/transforming a non standard text to a standard register.

Example:

new pix comming tomoroe
new pictures coming tomorrow

Datasets usually consists of tweets, since these naturally contain a fair amount of these phenomena.

For lexical normalization, only replacements on the word-level are annotated. Some corpora include annotation for 1-N and N-1 replacements. However, word insertion/deletion and reordering is not part of the task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 47 papers

Title	Date	Tasks	Status	Hype
ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media Text	Jan 29, 2024	Lexical NormalizationVietnamese Lexical Normalization	CodeCode Available	1
ÚFAL at MultiLexNorm 2021: Improving Multilingual Lexical Normalization by Fine-tuning ByT5	Oct 28, 2021	Dependency ParsingLanguage Modeling	CodeCode Available	1
Synthetic Data for English Lexical Normalization: How Close Can We Get to Manually Annotated Data?	May 1, 2020	Lexical NormalizationSentence	—Unverified	0
A Character-level Ngram-based MT Approach for Lexical Normalization in Social Media	Dec 17, 2021	Lexical Normalization	—Unverified	0
NCSU\_SAS\_SAM: Deep Encoding and Reconstruction for Normalization of Noisy Text	Jul 1, 2015	DenoisingLexical Normalization	—Unverified	0
Noise-Robust Morphological Disambiguation for Dialectal Arabic	Jun 1, 2018	Lexical NormalizationMorphological Analysis	—Unverified	0
Normalization of Indonesian-English Code-Mixed Twitter Data	Nov 1, 2019	Language IdentificationLexical Normalization	—Unverified	0
Norm It! Lexical Normalization for Italian and Its Downstream Effects for Dependency Parsing	May 1, 2020	Dependency ParsingLexical Normalization	—Unverified	0
Sequence-to-Sequence Lexical Normalization with Multilingual Transformers	Oct 6, 2021	Lexical NormalizationMachine Translation	—Unverified	0
Sesame Street to Mount Sinai: BERT-constrained character-level Moses models for multilingual lexical normalization	Nov 1, 2021	Lexical Normalizationtoken-classification	—Unverified	0
Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition	Jul 1, 2015	Lexical Normalizationnamed-entity-recognition	—Unverified	0
Accurate Word Segmentation and POS Tagging for Japanese Microblogs: Corpus Annotation and Joint Modeling with Lexical Normalization	Oct 1, 2014	Lexical NormalizationPOS	—Unverified	0
The Denoised Web Treebank: Evaluating Dependency Parsing under Noisy Input Conditions	May 1, 2016	Dependency ParsingLexical Normalization	—Unverified	0
Towards Shared Datasets for Normalization Research	May 1, 2014	Domain AdaptationLexical Normalization	—Unverified	0
To What Extent Does Lexical Normalization Help English-as-a-Second Language Learners to Read Noisy English Texts?	Nov 1, 2021	Lexical Normalization	—Unverified	0
Tweet Normalization with Syllables	Jul 1, 2015	Lexical NormalizationMachine Translation	—Unverified	0
TweetNorm\_es: an annotated corpus for Spanish microtext normalization	May 1, 2014	Domain AdaptationLexical Normalization	—Unverified	0
USZEGED: Correction Type-sensitive Normalization of English Tweets Using Efficiently Indexed n-gram Statistics	Jul 1, 2015	Lexical Normalization	—Unverified	0
A Large Corpus of Product Reviews in Portuguese: Tackling Out-Of-Vocabulary Words	May 1, 2014	Lexical NormalizationOpinion Mining	—Unverified	0
A Log-Linear Model for Unsupervised Text Normalization	Oct 1, 2013	Language ModellingLexical Normalization	—Unverified	0
An In-depth Analysis of the Effect of Lexical Normalization on the Dependency Parsing of Social Media	Nov 1, 2019	Dependency ParsingLexical Normalization	—Unverified	0
A Taxonomy for In-depth Evaluation of Normalization for User Generated Content	May 1, 2018	Grammatical Error CorrectionLexical Normalization	—Unverified	0
A Text Editing Approach to Joint Japanese Word Segmentation, POS Tagging, and Lexical Normalization	Nov 1, 2021	Japanese Word SegmentationLexical Normalization	—Unverified	0
A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media	Sep 30, 2024	Lexical Normalization	—Unverified	0
CL-MoNoise: Cross-lingual Lexical Normalization	Nov 1, 2021	Lexical Normalization	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MoNoise	Accuracy	87.63	—	Unverified
2	Syllable based	Accuracy	86.08	—	Unverified
3	TextNorm	Accuracy	83.94	—	Unverified
4	unLOL	Accuracy	82.06	—	Unverified