Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15851–15900 of 17610 papers

Title	Date	Tasks	Status	Hype
Knowledge-Aware Conversational Semantic Parsing Over Web Tables	Sep 12, 2018	Entity TypingLanguage Modeling	—Unverified	0
Evaluating Semantic Rationality of a Sentence: A Sememe-Word-Matching Neural Network based on HowNet	Sep 11, 2018	Language ModelingLanguage Modelling	—Unverified	0
Context-Free Transductions with Neural Stacks	Sep 8, 2018	Language Modelling	CodeCode Available	0
Noise Contrastive Estimation and Negative Sampling for Conditional Models: Consistency and Statistical Efficiency	Sep 6, 2018	ClassificationGeneral Classification	—Unverified	0
RNNs as psycholinguistic subjects: Syntactic state and grammatical dependency	Sep 5, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
t-Exponential Memory Networks for Question-Answering Machines	Sep 4, 2018	Language ModelingLanguage Modelling	—Unverified	0
Random Language Model	Sep 4, 2018	Language ModelingLanguage Modelling	—Unverified	0
Unsupervised Statistical Machine Translation	Sep 4, 2018	Language ModelingLanguage Modelling	CodeCode Available	1
Chittron: An Automatic Bangla Image Captioning System	Sep 2, 2018	Caption GenerationImage Captioning	—Unverified	0
Finding the Answers with Definition Models	Sep 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Simple Fusion: Return of the Language Model	Sep 1, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Neural DrugNet	Aug 31, 2018	General ClassificationLanguage Modeling	—Unverified	0
Indicatements that character language models learn English morpho-syntactic units and regularities	Aug 31, 2018	Language ModelingLanguage Modelling	—Unverified	0
Do Language Models Understand Anything? On the Ability of LSTMs to Understand Negative Polarity Items	Aug 31, 2018	Language ModelingLanguage Modelling	—Unverified	0
Spherical Latent Spaces for Stable Variational Autoencoders	Aug 31, 2018	DecoderLanguage Modeling	CodeCode Available	0
Direct Output Connection for a High-Rank Language Model	Aug 30, 2018	Constituency ParsingHeadline Generation	CodeCode Available	0
A Neural Model of Adaptation in Reading	Aug 29, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Grammar Induction with Neural Language Models: An Unusual Replication	Aug 29, 2018	Constituency ParsingLanguage Modeling	CodeCode Available	0
A Unified Multilingual Handwriting Recognition System using multigrams sub-lexical units	Aug 28, 2018	Handwriting RecognitionLanguage Modeling	—Unverified	0
Hierarchical Quantized Representations for Script Generation	Aug 28, 2018	DecoderLanguage Modeling	CodeCode Available	0
A Quantum Many-body Wave Function Inspired Language Modeling Approach	Aug 28, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Disfluency Detection using a Noisy Channel Model and a Deep Neural Language Model	Aug 28, 2018	Language ModelingLanguage Modelling	—Unverified	0
Rational Recurrences	Aug 28, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Large Margin Neural Language Model	Aug 27, 2018	Language ModelingLanguage Modelling	—Unverified	0
Pyramidal Recurrent Unit for Language Modeling	Aug 27, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Targeted Syntactic Evaluation of Language Models	Aug 27, 2018	CCG SupertaggingLanguage Modeling	CodeCode Available	0
Predefined Sparseness in Recurrent Sequence Models	Aug 27, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Generating Text through Adversarial Training using Skip-Thought Vectors	Aug 27, 2018	Conditional Text GenerationLanguage Modelling	CodeCode Available	0
Adversarially Regularising Neural NLI Models to Integrate Logical Background Knowledge	Aug 26, 2018	BIG-bench Machine LearningLanguage Modeling	CodeCode Available	0
Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information	Aug 24, 2018	DiagnosticLanguage Modeling	—Unverified	0
The Importance of Generation Order in Language Modeling	Aug 23, 2018	Language ModelingLanguage Modelling	—Unverified	0
Improving Abstraction in Text Summarization	Aug 23, 2018	Abstractive Text SummarizationDecoder	—Unverified	0
Neural Architecture Optimization	Aug 22, 2018	DecoderEvolutionary Algorithms	CodeCode Available	0
Improved Chord Recognition by Combining Duration and Harmonic Language Models	Aug 16, 2018	Chord RecognitionLanguage Modeling	—Unverified	0
Automatic Chord Recognition with Higher-Order Harmonic Language Modelling	Aug 16, 2018	Chord RecognitionLanguage Modelling	—Unverified	0
Improved Language Modeling by Decoding the Past	Aug 14, 2018	Language ModelingLanguage Modelling	—Unverified	0
RedSync : Reducing Synchronization Traffic for Distributed Deep Learning	Aug 13, 2018	Deep LearningGPU	—Unverified	0
Fake Sentence Detection as a Training Task for Sentence Encoding	Aug 11, 2018	Binary ClassificationLanguage Modeling	—Unverified	0
Document Informed Neural Autoregressive Topic Models	Aug 11, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Character-Level Language Modeling with Deeper Self-Attention	Aug 9, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Learning to Write Notes in Electronic Health Records	Aug 8, 2018	Language ModelingLanguage Modelling	—Unverified	0
Language Model Supervision for Handwriting Recognition Model Adaptation	Aug 4, 2018	Handwriting RecognitionLanguage Modeling	—Unverified	0
Large Scale Language Modeling: Converging on 40GB of Text in Four Hours	Aug 3, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Open Information Extraction from Conjunctive Sentences	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Learning with Noise-Contrastive Estimation: Easing training by learning to scale	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Toward Better Loanword Identification in Uyghur Using Cross-lingual Word Embeddings	Aug 1, 2018	Cross-Lingual Word EmbeddingsLanguage Modeling	—Unverified	0
Sentence Weighting for Neural Machine Translation Domain Adaptation	Aug 1, 2018	Domain AdaptationLanguage Modeling	—Unverified	0
Modeling with Recurrent Neural Networks for Open Vocabulary Slots	Aug 1, 2018	Goal-Oriented Dialogue SystemsIntent Detection	—Unverified	0
Learning to Generate Word Representations using Subword Information	Aug 1, 2018	ChunkingLanguage Modeling	—Unverified	0
On-Device Neural Language Model Based Word Prediction	Aug 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available	0

Show:10 25 50

← PrevPage 318 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified