SOTAVerified|Agents Browse Leaderboard About Blog

Lexical Normalization

Lexical normalization is the task of translating/transforming a non standard text to a standard register.

Example:

new pix comming tomoroe
new pictures coming tomorrow

Datasets usually consists of tweets, since these naturally contain a fair amount of these phenomena.

For lexical normalization, only replacements on the word-level are annotated. Some corpora include annotation for 1-N and N-1 replacements. However, word insertion/deletion and reordering is not part of the task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–47 of 47 papers

Title	Date	Tasks	Status
USZEGED: Correction Type-sensitive Normalization of English Tweets Using Efficiently Indexed n-gram Statistics	Jul 1, 2015	Lexical Normalization	—Unverified
Tweet Normalization with Syllables	Jul 1, 2015	Lexical NormalizationMachine Translation	—Unverified
Accurate Word Segmentation and POS Tagging for Japanese Microblogs: Corpus Annotation and Joint Modeling with Lexical Normalization	Oct 1, 2014	Lexical NormalizationPOS	—Unverified
TweetNorm\_es: an annotated corpus for Spanish microtext normalization	May 1, 2014	Domain AdaptationLexical Normalization	—Unverified
Towards Shared Datasets for Normalization Research	May 1, 2014	Domain AdaptationLexical Normalization	—Unverified
A Large Corpus of Product Reviews in Portuguese: Tackling Out-Of-Vocabulary Words	May 1, 2014	Lexical NormalizationOpinion Mining	—Unverified
A Log-Linear Model for Unsupervised Text Normalization	Oct 1, 2013	Language ModellingLexical Normalization	—Unverified

Show:10 25 50

← PrevPage 5 of 5Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MoNoise	Accuracy	87.63	—	Unverified
2	Syllable based	Accuracy	86.08	—	Unverified
3	TextNorm	Accuracy	83.94	—	Unverified
4	unLOL	Accuracy	82.06	—	Unverified