Lexical Normalization

Lexical normalization is the task of translating/transforming a non standard text to a standard register.

Example:

new pix comming tomoroe
new pictures coming tomorrow

Datasets usually consists of tweets, since these naturally contain a fair amount of these phenomena.

For lexical normalization, only replacements on the word-level are annotated. Some corpora include annotation for 1-N and N-1 replacements. However, word insertion/deletion and reordering is not part of the task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–47 of 47 papers

Title	Date	Tasks	Status
An In-depth Analysis of the Effect of Lexical Normalization on the Dependency Parsing of Social Media	Nov 1, 2019	Dependency ParsingLexical Normalization	—Unverified
Normalization of Indonesian-English Code-Mixed Twitter Data	Nov 1, 2019	Language IdentificationLexical Normalization	—Unverified
Lexical Normalization of User-Generated Medical Text	Aug 1, 2019	Lexical NormalizationMistake Detection	—Unverified
MoNoise: A Multi-lingual and Easy-to-use Lexical Normalization Tool	Jul 1, 2019	Lexical Normalization	CodeCode Available
Adapting Sequence to Sequence models for Text Normalization in Social Media	Apr 12, 2019	DecoderLexical Normalization	CodeCode Available
Modeling Input Uncertainty in Neural Network Dependency Parsing	Oct 1, 2018	Dependency ParsingLexical Normalization	CodeCode Available
Noise-Robust Morphological Disambiguation for Dialectal Arabic	Jun 1, 2018	Lexical NormalizationMorphological Analysis	—Unverified
A Taxonomy for In-depth Evaluation of Normalization for User Generated Content	May 1, 2018	Grammatical Error CorrectionLexical Normalization	—Unverified
Handling Normalization Issues for Part-of-Speech Tagging of Online Conversational Text	May 1, 2018	Lexical NormalizationPart-Of-Speech Tagging	—Unverified
MoNoise: Modeling Noise Using a Modular Normalization System	Oct 10, 2017	Lexical NormalizationSpelling Correction	CodeCode Available
The Denoised Web Treebank: Evaluating Dependency Parsing under Noisy Input Conditions	May 1, 2016	Dependency ParsingLexical Normalization	—Unverified
NCSU-SAS-Ning: Candidate Generation and Feature Engineering for Supervised Lexical Normalization	Jul 1, 2015	Feature EngineeringLexical Normalization	—Unverified
IHS\_RD: Lexical Normalization for English Tweets	Jul 1, 2015	Lexical NormalizationMachine Translation	—Unverified
NCSU\_SAS\_SAM: Deep Encoding and Reconstruction for Normalization of Noisy Text	Jul 1, 2015	DenoisingLexical Normalization	—Unverified
Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition	Jul 1, 2015	Lexical Normalizationnamed-entity-recognition	—Unverified
USZEGED: Correction Type-sensitive Normalization of English Tweets Using Efficiently Indexed n-gram Statistics	Jul 1, 2015	Lexical Normalization	—Unverified
Tweet Normalization with Syllables	Jul 1, 2015	Lexical NormalizationMachine Translation	—Unverified
Accurate Word Segmentation and POS Tagging for Japanese Microblogs: Corpus Annotation and Joint Modeling with Lexical Normalization	Oct 1, 2014	Lexical NormalizationPOS	—Unverified
TweetNorm\_es: an annotated corpus for Spanish microtext normalization	May 1, 2014	Domain AdaptationLexical Normalization	—Unverified
Towards Shared Datasets for Normalization Research	May 1, 2014	Domain AdaptationLexical Normalization	—Unverified
A Large Corpus of Product Reviews in Portuguese: Tackling Out-Of-Vocabulary Words	May 1, 2014	Lexical NormalizationOpinion Mining	—Unverified
A Log-Linear Model for Unsupervised Text Normalization	Oct 1, 2013	Language ModellingLexical Normalization	—Unverified

Show:10 25 50

← PrevPage 2 of 2Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MoNoise	Accuracy	87.63	—	Unverified
2	Syllable based	Accuracy	86.08	—	Unverified
3	TextNorm	Accuracy	83.94	—	Unverified
4	unLOL	Accuracy	82.06	—	Unverified