Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16151–16200 of 17610 papers

Title	Date	Tasks	Status
Polisis: Automated Analysis and Presentation of Privacy Policies Using Deep Learning	Feb 7, 2018	Language ModelingLanguage Modelling	CodeCode Available
Learning from Past Mistakes: Improving Automatic Speech Recognition Output via Noisy-Clean Phrase Context Modeling	Feb 7, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
DP-GAN: Diversity-Promoting Generative Adversarial Network for Generating Informative and Diversified Text	Feb 5, 2018	Dialogue GenerationDiversity	CodeCode Available
Nested LSTMs	Jan 31, 2018	Language ModelingLanguage Modelling	CodeCode Available
Accelerating recurrent neural network language model based online speech recognition system	Jan 30, 2018	CPUGPU	—Unverified
Discrete Autoencoders for Sequence Models	Jan 29, 2018	Language ModelingLanguage Modelling	CodeCode Available
A Multilayer Convolutional Encoder-Decoder Neural Network for Grammatical Error Correction	Jan 26, 2018	DecoderGrammatical Error Correction	CodeCode Available
Enhancing Translation Language Models with Word Embedding for Information Retrieval	Jan 11, 2018	Information RetrievalLanguage Modeling	—Unverified
Stochastic Learning of Nonstationary Kernels for Natural Language Modeling	Jan 11, 2018	Language ModelingLanguage Modelling	—Unverified
Exploring Architectures, Data and Units For Streaming End-to-End Speech Recognition with RNN-Transducer	Jan 2, 2018	DecoderLanguage Modeling	—Unverified
From Information Bottleneck To Activation Norm Penalty	Jan 1, 2018	General Classificationimage-classification	—Unverified
EXPLORING NEURAL ARCHITECTURE SEARCH FOR LANGUAGE TASKS	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
Convolutional Sequence Modeling Revisited	Jan 1, 2018	Language ModellingTime Series Analysis	—Unverified
A Simple Fully Connected Network for Composing Word Embeddings from Characters	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
Gated ConvNets for Letter-Based ASR	Jan 1, 2018	DecoderLanguage Modeling	—Unverified
Distributed Fine-tuning of Language Models on Private Data	Jan 1, 2018	General KnowledgeLanguage Modeling	—Unverified
Dense Recurrent Neural Network with Attention Gate	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
A Goal-oriented Neural Conversation Model by Self-Play	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
Realtime query completion via deep language models	Jan 1, 2018	CPULanguage Modeling	—Unverified
Learning Document Embeddings With CNNs	Jan 1, 2018	Document EmbeddingLanguage Modeling	—Unverified
Predictive power of word surprisal for reading times is a linear function of language model quality	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
LSH Softmax: Sub-Linear Learning and Inference of the Softmax Layer in Deep Architectures	Jan 1, 2018	Deep LearningLanguage Modeling	—Unverified
Noise-Based Regularizers for Recurrent Neural Networks	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
Revisiting Bayes by Backprop	Jan 1, 2018	Image CaptioningLanguage Modelling	—Unverified
Learning to Write by Learning the Objective	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
Language Modeling for Morphologically Rich Languages: Character-Aware Modeling for Word-Level Prediction	Jan 1, 2018	Dialogue GenerationLanguage Modeling	—Unverified
LEARNING TO ORGANIZE KNOWLEDGE WITH N-GRAM MACHINES	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
New Baseline in Automatic Speech Recognition for Northern S\'ami	Jan 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PronouncUR: An Urdu Pronunciation Lexicon Generator	Jan 1, 2018	Grapheme-to-Phoneme ConversionLanguage Modeling	—Unverified
Learning Continuous User Representations through Hybrid Filtering with doc2vec	Dec 31, 2017	Language ModelingLanguage Modelling	—Unverified
Topic Compositional Neural Language Model	Dec 28, 2017	Language ModelingLanguage Modelling	—Unverified
Letter-Based Speech Recognition with Gated ConvNets	Dec 22, 2017	DecoderLanguage Modeling	CodeCode Available
Improving Generalization Performance by Switching from Adam to SGD	Dec 20, 2017	Language ModelingLanguage Modelling	CodeCode Available
Differentially Private Distributed Learning for Language Modeling Tasks	Dec 20, 2017	General KnowledgeLanguage Modeling	—Unverified
A Flexible Approach to Automated RNN Architecture Generation	Dec 20, 2017	Language ModelingLanguage Modelling	—Unverified
Subword and Crossword Units for CTC Acoustic Models	Dec 19, 2017	Language ModelingLanguage Modelling	—Unverified
StrassenNets: Deep Learning with a Multiplication Budget	Dec 11, 2017	Deep Learningimage-classification	CodeCode Available
A Novel Way of Identifying Cyber Predators	Dec 11, 2017	General ClassificationLanguage Modeling	—Unverified
Contextualized Word Representations for Reading Comprehension	Dec 10, 2017	Language ModelingLanguage Modelling	CodeCode Available
Fine-Grained Object Recognition and Zero-Shot Learning in Remote Sensing Imagery	Dec 9, 2017	Language ModelingLanguage Modelling	—Unverified
Characterizing the hyper-parameter space of LSTM language models for mixed context applications	Dec 8, 2017	Language ModelingLanguage Modelling	—Unverified
Building competitive direct acoustics-to-word models for English conversational speech recognition	Dec 8, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An analysis of incorporating an external language model into a sequence-to-sequence model	Dec 6, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training	Dec 5, 2017	Federated Learningimage-classification	CodeCode Available
Deep Gradient Compression Reduce the Communication Bandwidth For distributed Traning	Dec 5, 2017	Federated Learningimage-classification	CodeCode Available
No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models	Dec 5, 2017	Language ModelingLanguage Modelling	—Unverified
Phonemic Transcription of Low-Resource Tonal Languages	Dec 1, 2017	Acoustic ModellingLanguage Modeling	CodeCode Available
SuperOCR for ALTA 2017 Shared Task	Dec 1, 2017	Language ModelingLanguage Modelling	—Unverified
JU NITM at IJCNLP-2017 Task 5: A Classification Approach for Answer Selection in Multi-choice Question Answering System	Dec 1, 2017	Answer SelectionClassification	—Unverified
N-gram Model for Chinese Grammatical Error Diagnosis	Dec 1, 2017	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 324 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified