SOTAVerified|Agents Browse Leaderboard About Blog

Lexical Normalization

Lexical normalization is the task of translating/transforming a non standard text to a standard register.

Example:

new pix comming tomoroe
new pictures coming tomorrow

Datasets usually consists of tweets, since these naturally contain a fair amount of these phenomena.

For lexical normalization, only replacements on the word-level are annotated. Some corpora include annotation for 1-N and N-1 replacements. However, word insertion/deletion and reordering is not part of the task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 47 papers

Title	Date	Tasks	Status	Hype
ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization	Jan 13, 2025	Lexical NormalizationWeakly-supervised Learning	CodeCode Available	0
A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media	Sep 30, 2024	Lexical Normalization	—Unverified	0
ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media Text	Jan 29, 2024	Lexical NormalizationVietnamese Lexical Normalization	CodeCode Available	1
Automatic Textual Normalization for Hate Speech Detection	Nov 12, 2023	Hate Speech DetectionLexical Normalization	CodeCode Available	0
Increasing Robustness for Cross-domain Dialogue Act Classification on Social Media Data	Oct 1, 2022	Dialogue Act ClassificationLexical Normalization	CodeCode Available	0
A Character-level Ngram-based MT Approach for Lexical Normalization in Social Media	Dec 17, 2021	Lexical Normalization	—Unverified	0
MultiLexNorm: A Shared Task on Multilingual Lexical Normalization	Nov 1, 2021	Dependency ParsingLexical Normalization	CodeCode Available	0
CL-MoNoise: Cross-lingual Lexical Normalization	Nov 1, 2021	Lexical Normalization	—Unverified	0
A Text Editing Approach to Joint Japanese Word Segmentation, POS Tagging, and Lexical Normalization	Nov 1, 2021	Japanese Word SegmentationLexical Normalization	—Unverified	0
Multilingual Sequence Labeling Approach to solve Lexical Normalization	Nov 1, 2021	Language ModellingLexical Normalization	—Unverified	0

Show:10 25 50

← PrevPage 1 of 5Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MoNoise	Accuracy	87.63	—	Unverified
2	Syllable based	Accuracy	86.08	—	Unverified
3	TextNorm	Accuracy	83.94	—	Unverified
4	unLOL	Accuracy	82.06	—	Unverified