Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15901–15950 of 17610 papers

Title	Date	Tasks	Status
Finding the Answers with Definition Models	Sep 1, 2018	Language ModelingLanguage Modelling	—Unverified
Simple Fusion: Return of the Language Model	Sep 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
Spherical Latent Spaces for Stable Variational Autoencoders	Aug 31, 2018	DecoderLanguage Modeling	CodeCode Available
Neural DrugNet	Aug 31, 2018	General ClassificationLanguage Modeling	—Unverified
Do Language Models Understand Anything? On the Ability of LSTMs to Understand Negative Polarity Items	Aug 31, 2018	Language ModelingLanguage Modelling	—Unverified
Indicatements that character language models learn English morpho-syntactic units and regularities	Aug 31, 2018	Language ModelingLanguage Modelling	—Unverified
Direct Output Connection for a High-Rank Language Model	Aug 30, 2018	Constituency ParsingHeadline Generation	CodeCode Available
Grammar Induction with Neural Language Models: An Unusual Replication	Aug 29, 2018	Constituency ParsingLanguage Modeling	CodeCode Available
A Neural Model of Adaptation in Reading	Aug 29, 2018	Language ModelingLanguage Modelling	CodeCode Available
A Unified Multilingual Handwriting Recognition System using multigrams sub-lexical units	Aug 28, 2018	Handwriting RecognitionLanguage Modeling	—Unverified
A Quantum Many-body Wave Function Inspired Language Modeling Approach	Aug 28, 2018	Language ModelingLanguage Modelling	CodeCode Available
Hierarchical Quantized Representations for Script Generation	Aug 28, 2018	DecoderLanguage Modeling	CodeCode Available
Disfluency Detection using a Noisy Channel Model and a Deep Neural Language Model	Aug 28, 2018	Language ModelingLanguage Modelling	—Unverified
Rational Recurrences	Aug 28, 2018	Language ModelingLanguage Modelling	CodeCode Available
Targeted Syntactic Evaluation of Language Models	Aug 27, 2018	CCG SupertaggingLanguage Modeling	CodeCode Available
Predefined Sparseness in Recurrent Sequence Models	Aug 27, 2018	Language ModelingLanguage Modelling	CodeCode Available
Large Margin Neural Language Model	Aug 27, 2018	Language ModelingLanguage Modelling	—Unverified
Pyramidal Recurrent Unit for Language Modeling	Aug 27, 2018	Language ModelingLanguage Modelling	CodeCode Available
Generating Text through Adversarial Training using Skip-Thought Vectors	Aug 27, 2018	Conditional Text GenerationLanguage Modelling	CodeCode Available
Adversarially Regularising Neural NLI Models to Integrate Logical Background Knowledge	Aug 26, 2018	BIG-bench Machine LearningLanguage Modeling	CodeCode Available
Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information	Aug 24, 2018	DiagnosticLanguage Modeling	—Unverified
The Importance of Generation Order in Language Modeling	Aug 23, 2018	Language ModelingLanguage Modelling	—Unverified
Improving Abstraction in Text Summarization	Aug 23, 2018	Abstractive Text SummarizationDecoder	—Unverified
Neural Architecture Optimization	Aug 22, 2018	DecoderEvolutionary Algorithms	CodeCode Available
Improved Chord Recognition by Combining Duration and Harmonic Language Models	Aug 16, 2018	Chord RecognitionLanguage Modeling	—Unverified
Automatic Chord Recognition with Higher-Order Harmonic Language Modelling	Aug 16, 2018	Chord RecognitionLanguage Modelling	—Unverified
Improved Language Modeling by Decoding the Past	Aug 14, 2018	Language ModelingLanguage Modelling	—Unverified
RedSync : Reducing Synchronization Traffic for Distributed Deep Learning	Aug 13, 2018	Deep LearningGPU	—Unverified
Fake Sentence Detection as a Training Task for Sentence Encoding	Aug 11, 2018	Binary ClassificationLanguage Modeling	—Unverified
Document Informed Neural Autoregressive Topic Models	Aug 11, 2018	Language ModelingLanguage Modelling	CodeCode Available
Character-Level Language Modeling with Deeper Self-Attention	Aug 9, 2018	Language ModelingLanguage Modelling	CodeCode Available
Learning to Write Notes in Electronic Health Records	Aug 8, 2018	Language ModelingLanguage Modelling	—Unverified
Language Model Supervision for Handwriting Recognition Model Adaptation	Aug 4, 2018	Handwriting RecognitionLanguage Modeling	—Unverified
Large Scale Language Modeling: Converging on 40GB of Text in Four Hours	Aug 3, 2018	Language ModelingLanguage Modelling	CodeCode Available
Toward Better Loanword Identification in Uyghur Using Cross-lingual Word Embeddings	Aug 1, 2018	Cross-Lingual Word EmbeddingsLanguage Modeling	—Unverified
RNN Simulations of Grammaticality Judgments on Long-distance Dependencies	Aug 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
Learning to Generate Word Representations using Subword Information	Aug 1, 2018	ChunkingLanguage Modeling	—Unverified
Reproducing and Regularizing the SCRN Model	Aug 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
Modeling with Recurrent Neural Networks for Open Vocabulary Slots	Aug 1, 2018	Goal-Oriented Dialogue SystemsIntent Detection	—Unverified
Transfer Learning for a Letter-Ngrams to Word Decoder in the Context of Historical Handwriting Recognition with Scarce Resources	Aug 1, 2018	DecoderHandwriting Recognition	—Unverified
Open Information Extraction from Conjunctive Sentences	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
Learning with Noise-Contrastive Estimation: Easing training by learning to scale	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
Kawenn\'on:nis: the Wordmaker for Kanyen'k\'eha	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
Neural Machine Translation with Decoding History Enhanced Attention	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
On-Device Neural Language Model Based Word Prediction	Aug 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available
Sentence Weighting for Neural Machine Translation Domain Adaptation	Aug 1, 2018	Domain AdaptationLanguage Modeling	—Unverified
What represents ``style'' in authorship attribution?	Aug 1, 2018	Authorship AttributionLanguage Modeling	—Unverified
A Deep Dive into Word Sense Disambiguation with LSTM	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
Birzeit Arabic Dialect Identification System for the 2018 VarDial Challenge	Aug 1, 2018	Dialect IdentificationLanguage Modeling	—Unverified
Iterative Language Model Adaptation for Indo-Aryan Language Identification	Aug 1, 2018	Language IdentificationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 319 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified