Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17451–17500 of 17610 papers

Title	Date	Tasks	Status
Combining Statistical Translation Techniques for Cross-Language Information Retrieval	Dec 1, 2012	Information RetrievalLanguage Modelling	—Unverified
Harvesting Parallel Text in Multiple Languages with Limited Supervision	Dec 1, 2012	Information RetrievalLanguage Modelling	—Unverified
Conversion between Scripts of Punjabi: Beyond Simple Transliteration	Dec 1, 2012	Language ModellingTransliteration	—Unverified
Readability Classification for German using Lexical, Syntactic, and Morphological Features	Dec 1, 2012	ClassificationGeneral Classification	—Unverified
Is Bad Structure Better Than No Structure?: Unsupervised Parsing for Realisation Ranking	Dec 1, 2012	Language ModellingText Generation	—Unverified
Lattice Rescoring for Speech Recognition using Large Scale Distributed Language Models	Dec 1, 2012	Language Modellingspeech-recognition	—Unverified
Statistical Method of Building Dialect Language Models for ASR Systems	Dec 1, 2012	Language ModellingSpeech Recognition	—Unverified
Language Modeling for Spoken Dialogue System based on Filtering using Predicate-Argument Structures	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Quantifying Semantics using Complex Network Analysis	Dec 1, 2012	Language Modelling	—Unverified
Neural Probabilistic Language Model for System Combination	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Statistical Input Method based on a Phrase Class n-gram Model	Dec 1, 2012	Language Modelling	—Unverified
Using Collocations and K-means Clustering to Improve the N-pos Model for Japanese IME	Dec 1, 2012	ClusteringLanguage Modelling	—Unverified
A Conditional Random Field-based Traditional Chinese Base Phrase Parser for SIGHAN Bake-off 2012 Evaluation	Dec 1, 2012	ChunkingLanguage Modelling	—Unverified
A Language Modeling Approach to Identifying Code-Switched Sentences and Words	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified
Applying Statistical Post-Editing to English-to-Korean Rule-based Machine Translation System	Nov 1, 2012	Language ModellingMachine Translation	—Unverified
Introduction of a Probabilistic Language Model to Non-Factoid Question Answering Using Example Q\&A Pairs	Nov 1, 2012	Language ModelingLanguage Modelling	—Unverified
遞迴式類神經網路語言模型應用額外資訊於語音辨識之研究 (Recurrent Neural Network-based Language Modeling with Extra Information Cues for Speech Recognition) [In Chinese]	Sep 1, 2012	Language ModelingLanguage Modelling	—Unverified
Translating Collocation using Monolingual and Parallel Corpus	Sep 1, 2012	Language ModellingMachine Translation	—Unverified
WSD for n-best reranking and local language modeling in SMT	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified
WFST-Based Grapheme-to-Phoneme Conversion: Open Source tools for Alignment, Model-Building and Decoding	Jul 1, 2012	Grapheme-to-Phoneme ConversionLanguage Modelling	—Unverified
Using Domain-specific and Collaborative Resources for Term Translation	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
A Finite-State Approach to Phrase-Based Statistical Machine Translation	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Assigning Deep Lexical Types Using Structured Classifier Features for Grammatical Dependencies	Jul 1, 2012	Constituency ParsingLanguage Modelling	—Unverified
A Methodology for Obtaining Concept Graphs from Word Graphs	Jul 1, 2012	Language ModellingSpeech Recognition	—Unverified
Effect of Language and Error Models on Efficiency of Finite-State Spell-Checking and Correction	Jul 1, 2012	Language Modelling	—Unverified
Exact Sampling and Decoding in High-Order Hidden Markov Models	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
A Systematic Comparison of Phrase Table Pruning Techniques	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Exploring Adaptor Grammars for Native Language Identification	Jul 1, 2012	Language AcquisitionLanguage Identification	—Unverified
A Discriminative Model for Query Spelling Correction with Latent Structural SVM	Jul 1, 2012	Language ModellingSpelling Correction	—Unverified
A Comparison of Vector-based Representations for Semantic Composition	Jul 1, 2012	Language ModellingSemantic Composition	—Unverified
Document-Wide Decoding for Phrase-Based Statistical Machine Translation	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Entropy-based Pruning for Phrase-based Machine Translation	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Cross-Lingual Language Modeling with Syntactic Reordering for Low-Resource Speech Recognition	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified
Translation Model Based Cross-Lingual Language Model Adaptation: from Word Models to Phrase Models	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified
N-gram-based Tense Models for Statistical Machine Translation	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Language Model Rest Costs and Space-Efficient Storage	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified
Polarity Inducing Latent Semantic Analysis	Jul 1, 2012	Information RetrievalLanguage Modelling	—Unverified
Left-to-Right Tree-to-String Decoding with Prediction	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
EMNLP@CPH: Is frequency all there is to simplicity?	Jul 1, 2012	AllLanguage Modelling	—Unverified
Detecting Text Reuse with Modified and Weighted N-grams	Jul 1, 2012	Language Modelling	—Unverified
Modelling selectional preferences in a lexical hierarchy	Jul 1, 2012	Language Modelling	—Unverified
The OpenGrm open-source finite-state grammar software libraries	Jul 1, 2012	Language ModellingSpeech Recognition	—Unverified
NiuTrans: An Open Source Toolkit for Phrase-based and Syntax-based Machine Translation	Jul 1, 2012	Language ModellingMachine Translation	CodeCode Available
Discovering Factions in the Computational Linguistics Community	Jul 1, 2012	Language Modelling	—Unverified
An Exploration of Forest-to-String Translation: Does Translation Help or Hurt Parsing?	Jul 1, 2012	Language ModellingSentence	—Unverified
Akamon: An Open Source Toolkit for Tree/Forest-Based Statistical Machine Translation	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Applying Collocation Segmentation to the ACL Anthology Reference Corpus	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Deep Learning for NLP (without Magic)	Jul 1, 2012	Deep LearningFeature Engineering	—Unverified
A Class-Based Agreement Model for Generating Accurately Inflected Translations	Jul 1, 2012	Dimensionality ReductionLanguage Modelling	—Unverified
Fast and Scalable Decoding with Language Model Look-Ahead for Phrase-based Statistical Machine Translation	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 350 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified