Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17301–17350 of 17610 papers

Title	Date	Tasks	Status	Hype
The AI-KU System at the SPMRL 2013 Shared Task : Unsupervised Features for Dependency Parsing	Oct 1, 2013	ChunkingDependency Parsing	CodeCode Available	0
Introduction to CKIP Chinese Spelling Check System for SIGHAN Bakeoff 2013 Evaluation	Oct 1, 2013	Language ModellingMorphological Analysis	—Unverified	0
Chinese Spelling Check Evaluation at SIGHAN Bake-off 2013	Oct 1, 2013	Language Modelling	—Unverified	0
A Study of Language Modeling for Chinese Spelling Check	Oct 1, 2013	Document SummarizationInformation Retrieval	—Unverified	0
Chinese Spelling Checker Based on Statistical Machine Translation	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
A Hybrid Chinese Spelling Correction Using Language Model and Statistical Machine Translation with Reranking	Oct 1, 2013	Language ModelingLanguage Modelling	—Unverified	0
Conditional Random Field-based Parser and Language Model for Tradi-tional Chinese Spelling Checker	Oct 1, 2013	Language ModelingLanguage Modelling	—Unverified	0
An Efficient Language Model Using Double-Array Structures	Oct 1, 2013	Language ModelingLanguage Modelling	—Unverified	0
Improving Statistical Machine Translation with Word Class Models	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
Converting Continuous-Space Language Models into N-Gram Language Models for Statistical Machine Translation	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
A Hierarchical Entity-Based Approach to Structuralize User Generated Content in Social Media: A Case of Yahoo! Answers	Oct 1, 2013	Information RetrievalLanguage Modelling	—Unverified	0
Exploiting Language Models for Visual Recognition	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
Efficient Left-to-Right Hierarchical Phrase-Based Translation with Improved Reordering	Oct 1, 2013	Language ModellingTranslation	—Unverified	0
Deriving Adjectival Scales from Continuous Space Word Representations	Oct 1, 2013	Entity ResolutionLanguage Modelling	—Unverified	0
Dependency Language Models for Sentence Completion	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
Dependency-Based Decipherment for Resource-Limited Machine Translation	Oct 1, 2013	DeciphermentLanguage Modelling	—Unverified	0
Improvements to the Bayesian Topic N-Gram Models	Oct 1, 2013	Language Modelling	—Unverified	0
An Empirical Study Of Semi-Supervised Chinese Word Segmentation Using Co-Training	Oct 1, 2013	Chinese Word SegmentationLanguage Modelling	—Unverified	0
A Log-Linear Model for Unsupervised Text Normalization	Oct 1, 2013	Language ModellingLexical Normalization	—Unverified	0
Decipherment with a Million Random Restarts	Oct 1, 2013	DeciphermentLanguage Modelling	—Unverified	0
Decoding with Large-Scale Neural Language Models Improves Translation	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
Joint Language and Translation Modeling with Recurrent Neural Networks	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
Joint Learning of Phonetic Units and Word Pronunciations for ASR	Oct 1, 2013	Language ModellingSpeech Recognition	—Unverified	0
Structured Penalties for Log-Linear Language Models	Oct 1, 2013	ChunkingInformation Retrieval	—Unverified	0
Recurrent Continuous Translation Models	Oct 1, 2013	Language ModellingMachine Translation	—Unverified	0
Predicate Logic as a Modeling Language: Modeling and Solving some Machine Learning and Data Mining Problems with IDP3	Sep 26, 2013	Language ModelingLanguage Modelling	—Unverified	0
Improving Language Model Adaptation using Automatic Data Selection and Neural Network	Sep 1, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Edit Distance: A New Data Selection Criterion for Domain Adaptation in SMT	Sep 1, 2013	Domain AdaptationInformation Retrieval	—Unverified	0
History Based Unsupervised Data Oriented Parsing	Sep 1, 2013	Language ModellingLexical Analysis	—Unverified	0
Combining, Adapting and Reusing Bi-texts between Related Languages: Application to Statistical Machine Translation (invited talk)	Sep 1, 2013	Information RetrievalLanguage Modelling	—Unverified	0
Generating Sequences With Recurrent Neural Networks	Aug 4, 2013	Language ModellingText Generation	CodeCode Available	1
Integrating morpho-syntactic features in English-Arabic statistical machine translation	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
Edinburgh's Machine Translation Systems for European Language Pairs	Aug 1, 2013	Domain AdaptationLanguage Modelling	—Unverified	0
Generating English Determiners in Phrase-Based Translation with Synthetic Translation Options	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
A Robotic Agent in a Virtual Environment that Performs Situated Incremental Understanding of Navigational Utterances	Aug 1, 2013	Language ModellingSpeech Recognition	—Unverified	0
A Comparison of Smoothing Techniques for Bilingual Lexicon Extraction from Comparable Corpora	Aug 1, 2013	Information RetrievalLanguage Modelling	—Unverified	0
A Phrase Orientation Model for Hierarchical Machine Translation	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
DCU-Symantec at the WMT 2013 Quality Estimation Shared Task	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
Feature Decay Algorithms for Fast Deployment of Accurate Statistical Machine Translation Systems	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
Building bilingual lexicon to create Dialect Tunisian corpora and adapt language model	Aug 1, 2013	Language ModelingLanguage Modelling	—Unverified	0
Hybrid Selection of Language Model Training Data Using Linguistic Information and Perplexity	Aug 1, 2013	Language ModelingLanguage Modelling	—Unverified	0
GPKEX: Genetically Programmed Keyphrase Extraction from Croatian Texts	Aug 1, 2013	Keyphrase ExtractionLanguage Modelling	—Unverified	0
An MT Error-Driven Discriminative Word Lexicon using Sentence Structure Features	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
Automating speech reception threshold measurements using automatic speech recognition	Aug 1, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Answer Extraction by Recursive Parse Tree Descent	Aug 1, 2013	Language ModellingQuestion Answering	—Unverified	0
T\"UB\.ITAK-B\.ILGEM German-English Machine Translation Systems for W13	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
Tunable Distortion Limits and Corpus Cleaning for SMT	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0
Uses of Monolingual In-Domain Corpora for Cross-Domain Adaptation with Hybrid MT Approaches	Aug 1, 2013	Domain AdaptationLanguage Modelling	—Unverified	0
The RWTH Aachen Machine Translation System for WMT 2013	Aug 1, 2013	Domain AdaptationLanguage Modelling	—Unverified	0
Investigations in Exact Inference for Hierarchical Translation	Aug 1, 2013	Language ModellingMachine Translation	—Unverified	0

Show:10 25 50

← PrevPage 347 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified