Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16501–16550 of 17610 papers

Title	Date	Tasks	Status	Hype
IIT Bombay's English-Indonesian submission at WAT: Integrating Neural Language Models with SMT	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Chinese Grammatical Error Diagnosis with Long Short-Term Memory Networks	Dec 1, 2016	Information RetrievalLanguage Modeling	—Unverified	0
Chinese Grammatical Error Diagnosis Using Single Word Embedding	Dec 1, 2016	Grammatical Error DetectionLanguage Modeling	—Unverified	0
Dependency grammars as Haskell programs	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
DSL Shared Task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation--Maximization and Chunk-based Language Model	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
How Many Languages Can a Language Model Model?	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Supervised classification of end-of-lines in clinical text with no manual annotation	Dec 1, 2016	General ClassificationLanguage Modeling	—Unverified	0
Japanese Lexical Simplification for Non-Native Speakers	Dec 1, 2016	Embeddings EvaluationLanguage Modeling	—Unverified	0
Language and Dialect Discrimination Using Compression-Inspired Language Models	Dec 1, 2016	Authorship AttributionDialect Identification	—Unverified	0
Neural Network Language Models for Candidate Scoring in Hybrid Multi-System Machine Translation	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Recurrent Neural Network with Word Embedding for Complaint Classification	Dec 1, 2016	ClassificationGeneral Classification	—Unverified	0
Word Order Sensitive Embedding Features/Conditional Random Field-based Chinese Grammatical Error Detection	Dec 1, 2016	Grammatical Error DetectionLanguage Modelling	—Unverified	0
UQAM-NTL: Named entity recognition in Twitter messages	Dec 1, 2016	BIG-bench Machine LearningLanguage Modeling	—Unverified	0
Extracting Social Networks from Literary Text with Word Embedding Tools	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Integrating Optical Character Recognition and Machine Translation of Historical Documents	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Syntactic and Lexical Complexity in Italian Noncanonical Structures	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Testing the Processing Hypothesis of word order variation using a probabilistic language model	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Dense Prediction on Sequences with Time-Dilated Convolutions for Speech Recognition	Nov 28, 2016	Computational EfficiencyGeneral Classification	—Unverified	0
Attention-based Memory Selection Recurrent Network for Language Modeling	Nov 26, 2016	Language ModelingLanguage Modelling	—Unverified	0
Learning Python Code Suggestion with a Sparse Pointer Network	Nov 24, 2016	Language ModelingLanguage Modelling	CodeCode Available	0
A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering	Nov 23, 2016	DescriptiveLanguage Modeling	CodeCode Available	0
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling	Nov 23, 2016	Language ModelingLanguage Modelling	—Unverified	0
Deep Recurrent Convolutional Neural Network: Improving Performance For Speech Recognition	Nov 22, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Coherent Dialogue with Attention-based Language Models	Nov 21, 2016	DiversityLanguage Modeling	—Unverified	0
Visualizing Linguistic Shift	Nov 20, 2016	Document ClassificationLanguage Modeling	—Unverified	0
Variable Computation in Recurrent Neural Networks	Nov 18, 2016	Language Modelling	—Unverified	0
What Do Recurrent Neural Network Grammars Learn About Syntax?	Nov 17, 2016	Constituency ParsingDependency Parsing	CodeCode Available	0
Recurrent Neural Network based Part-of-Speech Tagger for Code-Mixed Social Media Text	Nov 15, 2016	Language ModelingLanguage Modelling	CodeCode Available	0
Normalizing the Normalizers: Comparing and Extending Network Normalization Schemes	Nov 14, 2016	image-classificationImage Classification	—Unverified	0
Gradients of Counterfactuals	Nov 8, 2016	counterfactualFeature Importance	—Unverified	0
LSTM-Based System-Call Language Modeling and Robust Ensemble Method for Designing Host-Based Intrusion Detection Systems	Nov 6, 2016	Computer SecurityIntrusion Detection	—Unverified	0
Quasi-Recurrent Neural Networks	Nov 5, 2016	Language ModelingLanguage Modelling	CodeCode Available	0
Neural Architecture Search with Reinforcement Learning	Nov 5, 2016	Image ClassificationLanguage Modeling	CodeCode Available	0
TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency	Nov 5, 2016	Language ModelingLanguage Modelling	CodeCode Available	0
Assessing the Ability of LSTMs to Learn Syntax-Sensitive Dependencies	Nov 4, 2016	Language ModelingLanguage Modelling	CodeCode Available	0
Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling	Nov 4, 2016	General ClassificationLanguage Modeling	CodeCode Available	1
Using Language Groundings for Context-Sensitive Text Prediction	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Visualizing the Content of a Children's Story in a Virtual World: Lessons Learned	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
NASTEA: Investigating Narrative Schemas through Annotated Entities	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Low-resource OCR error detection and correction in French Clinical Texts	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
A Neural Model for Language Identification in Code-Switched Tweets	Nov 1, 2016	Language IdentificationLanguage Modeling	—Unverified	0
Analyzing Linguistic Knowledge in Sequential Model of Sentence	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Character Sequence Models for Colorful Words	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Globally Coherent Text Generation with Neural Checklist Models	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Event participant modelling with neural networks	Nov 1, 2016	Language ModellingMachine Translation	—Unverified	0
Convolutional Neural Network Language Models	Nov 1, 2016	Document ClassificationGeneral Classification	CodeCode Available	0
Why Neural Translations are the Right Length	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Regularizing Text Categorization with Clusters of Words	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Natural Language Model Re-usability for Scaling to Different Domains	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Neural Headline Generation on Abstract Meaning Representation	Nov 1, 2016	Abstract Meaning RepresentationDependency Parsing	—Unverified	0

Show:10 25 50

← PrevPage 331 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified