Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16651–16700 of 17610 papers

Title	Date	Tasks	Status
Using Term Position Similarity and Language Modeling for Bilingual Document Alignment	Aug 1, 2016	Information RetrievalLanguage Modeling	—Unverified
Using Factored Word Representation in Neural Network Language Models	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Merged bilingual trees based on Universal Dependencies in Machine Translation	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
ParFDA for Instance Selection for Statistical Machine Translation	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
PJAIT Systems for the WMT 2016	Aug 1, 2016	Domain AdaptationLanguage Modeling	—Unverified
The JHU Machine Translation Systems for WMT 2016	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Recurrent Neural Network based Translation Quality Estimation	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
T\"UB\.ITAK SMT System Submission for WMT2016	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Normalized Log-Linear Interpolation of Backoff Language Models is Efficient	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
UdS-(retrain\|distributional\|surface): Improving POS Tagging for OOV Words in German CMC and Web Data	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
The RWTH Aachen University English-Romanian Machine Translation System for WMT 2016	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
JU-USAAR: A Domain Adaptive MT System	Aug 1, 2016	Domain AdaptationLanguage Modeling	—Unverified
SHEF-LIUM-NN: Sentence level Quality Estimation with Neural Network Features	Aug 1, 2016	Automatic Speech Recognition (ASR)Feature Engineering	—Unverified
Sheffield Systems for the English-Romanian WMT Translation Task	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
IXA Biomedical Translation System at WMT16 Biomedical Translation Task	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Shallow Discourse Parsing Using Convolutional Neural Network	Aug 1, 2016	Discourse ParsingFeature Engineering	—Unverified
Leveraging Entity Linking and Related Language Projection to Improve Name Transliteration	Aug 1, 2016	Entity DisambiguationEntity Linking	—Unverified
KSAnswer: Question-answering System of Kangwon National University and Sogang University in the 2016 BioASQ Challenge	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Phrase-Based SMT for Finnish with More Data, Better Models and Alternative Alignment and Translation Tools	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Jointly Learning to Embed and Predict with Multiple Languages	Aug 1, 2016	Cross-Lingual TransferLanguage Modeling	—Unverified
Pronoun Prediction with Linguistic Features and Example Weighing	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Pronoun Prediction with Latent Anaphora Resolution	Aug 1, 2016	Coreference ResolutionLanguage Modeling	—Unverified
Pronoun Language Model and Grammatical Heuristics for Aiding Pronoun Prediction	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Modeling Selectional Preferences of Verbs and Nouns in String-to-Tree Machine Translation	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Semi-supervised Convolutional Networks for Translation Adaptation with Tiny Amount of In-domain Data	Aug 1, 2016	Domain AdaptationLanguage Modeling	—Unverified
The AFRL-MITLL WMT16 News-Translation Task Systems	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Larger-Context Language Modelling with Recurrent Neural Network	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Modeling Concept Dependencies in a Scientific Corpus	Aug 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
Moses-based official baseline for NEWS 2016	Aug 1, 2016	Information RetrievalLanguage Modeling	—Unverified
N-gram language models for massively parallel devices	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
The TALP--UPC Spanish--English WMT Biomedical Task: Bilingual Embeddings and Char-based Neural Language Model Rescoring in a Phrase-based System	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Latent Tree Language Model	Jul 24, 2016	Language ModelingLanguage Modelling	CodeCode Available
Novel Word Embedding and Translation-based Language Modeling for Extractive Speech Summarization	Jul 22, 2016	Language ModelingLanguage Modelling	—Unverified
Tie-breaker: Using language models to quantify gender bias in sports journalism	Jul 13, 2016	Language ModelingLanguage Modelling	—Unverified
Recurrent Highway Networks	Jul 12, 2016	Language ModelingLanguage Modelling	CodeCode Available
Recurrent Memory Array Structures	Jul 11, 2016	Language Modelling	CodeCode Available
Log-Linear RNNs: Towards Recurrent Neural Networks with Flexible Prior Knowledge	Jul 8, 2016	Language ModellingRepresentation Learning	—Unverified
Predicting and Understanding Law-Making with Word Vectors and an Ensemble Model	Jul 7, 2016	Language ModelingLanguage Modelling	—Unverified
Representing Documents and Queries as Sets of Word Embedded Vectors for Information Retrieval	Jun 25, 2016	Document RankingInformation Retrieval	—Unverified
Using Word Embeddings for Automatic Query Expansion	Jun 24, 2016	Language ModelingLanguage Modelling	—Unverified
Gender and Interest Targeting for Sponsored Post Advertising at Tumblr	Jun 23, 2016	Gender PredictionLanguage Modeling	—Unverified
NN-grams: Unifying neural network and n-gram language models for Speech Recognition	Jun 23, 2016	Binary ClassificationLanguage Modeling	—Unverified
A segmental framework for fully-unsupervised large-vocabulary speech recognition	Jun 22, 2016	Language ModellingSpeech Recognition	CodeCode Available
On Multiplicative Integration with Recurrent Neural Networks	Jun 21, 2016	Language Modelling	—Unverified
Egyptian Arabic to English Statistical Machine Translation System for NIST OpenMT'2015	Jun 18, 2016	Language ModelingLanguage Modelling	—Unverified
Two Discourse Driven Language Models for Semantics	Jun 17, 2016	Cloze TestDiscourse Parsing	—Unverified
Watch What You Just Said: Image Captioning with Text-Conditional Attention	Jun 15, 2016	Image CaptioningLanguage Modeling	CodeCode Available
Bidirectional Long-Short Term Memory for Video Description	Jun 15, 2016	Language ModelingLanguage Modelling	—Unverified
Learning to Generate Compositional Color Descriptions	Jun 13, 2016	Language ModelingLanguage Modelling	CodeCode Available
MuFuRU: The Multi-Function Recurrent Unit	Jun 9, 2016	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 334 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified