Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15451–15500 of 17610 papers

Title	Date	Tasks	Status	Hype
Word-based Domain Adaptation for Neural Machine Translation	Jun 7, 2019	Domain AdaptationLanguage Modeling	—Unverified	0
Selfie: Self-supervised Pretraining for Image Embedding	Jun 7, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
Real or Fake? Learning to Discriminate Machine from Human Generated Text	Jun 7, 2019	Language ModelingLanguage Modelling	—Unverified	0
From Caesar Cipher to Unsupervised Learning: A New Method for Classifier Parameter Estimation	Jun 6, 2019	Binary ClassificationGeneral Classification	—Unverified	0
Generating Question-Answer Hierarchies	Jun 6, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
Efficient, Lexicon-Free OCR using Deep Learning	Jun 5, 2019	Data AugmentationDeep Learning	—Unverified	0
An Imitation Learning Approach to Unsupervised Parsing	Jun 5, 2019	Imitation LearningLanguage Modeling	CodeCode Available	0
How multilingual is Multilingual BERT?	Jun 4, 2019	Language ModelingLanguage Modelling	CodeCode Available	1
Improving Neural Language Models by Segmenting, Attending, and Predicting the Future	Jun 4, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
The Unreasonable Effectiveness of Transformer Language Models in Grammatical Error Correction	Jun 4, 2019	Grammatical Error CorrectionLanguage Modeling	CodeCode Available	0
Training Neural Response Selection for Task-Oriented Dialogue Systems	Jun 4, 2019	ChatbotLanguage Modelling	CodeCode Available	0
Finding Syntactic Representations in Neural Stacks	Jun 4, 2019	General ClassificationLanguage Modeling	CodeCode Available	0
Better Character Language Modeling Through Morphology	Jun 3, 2019	Language ModelingLanguage Modelling	—Unverified	0
A Semi-Supervised Approach for Low-Resourced Text Generation	Jun 3, 2019	DecoderDenoising	CodeCode Available	0
Does It Make Sense? And Why? A Pilot Study for Sense Making and Explanation	Jun 2, 2019	Common Sense ReasoningLanguage Modeling	CodeCode Available	1
Pre-training of Graph Augmented Transformers for Medication Recommendation	Jun 2, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
MIDAS at SemEval-2019 Task 9: Suggestion Mining from Online Reviews using ULMFit	Jun 1, 2019	ClassificationGeneral Classification	—Unverified	0
Investigating Speech Recognition for Improving Predictive AAC	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Similar Minds Post Alike: Assessment of Suicide Risk Using a Hybrid Model	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Noisy Neural Language Modeling for Typing Prediction in BCI Communication	Jun 1, 2019	Brain Computer InterfaceLanguage Modeling	—Unverified	0
What a neural language model tells us about spatial relations	Jun 1, 2019	Image DescriptionLanguage Modeling	CodeCode Available	0
Entity Decisions in Neural Language Modelling: Approaches and Problems	Jun 1, 2019	Language Modelling	—Unverified	0
Discriminating between Mandarin Chinese and Swiss-German varieties using adaptive language models	Jun 1, 2019	Dialect IdentificationLanguage Identification	—Unverified	0
Cross-lingual Subjectivity Detection for Resource Lean Languages	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Enabling Real-time Neural IME with Incremental Vocabulary Selection	Jun 1, 2019	CPULanguage Modeling	—Unverified	0
A Partially Rule-Based Approach to AMR Generation	Jun 1, 2019	Abstract Meaning RepresentationLanguage Modeling	—Unverified	0
Beyond Context: A New Perspective for Word Embeddings	Jun 1, 2019	ClassificationFeature Engineering	—Unverified	0
How to Avoid Sentences Spelling Boring? Towards a Neural Approach to Unsupervised Metaphor Generation	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
ColumbiaNLP at SemEval-2019 Task 8: The Answer is Language Model Fine-tuning	Jun 1, 2019	Community Question AnsweringFact Checking	—Unverified	0
Dick-Preston and Morbo at SemEval-2019 Task 4: Transfer Learning for Hyperpartisan News Detection	Jun 1, 2019	ArticlesClassification	—Unverified	0
Columbia at SemEval-2019 Task 7: Multi-task Learning for Stance Classification and Rumour Verification	Jun 1, 2019	General ClassificationLanguage Modeling	—Unverified	0
CLP at SemEval-2019 Task 3: Multi-Encoder in Hierarchical Attention Networks for Contextual Emotion Detection	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
SEQ\^3: Differentiable Sequence-to-Sequence-to-Sequence Autoencoder for Unsupervised Abstractive Sentence Compression	Jun 1, 2019	DecoderLanguage Modeling	CodeCode Available	0
Serial Recall Effects in Neural Language Modeling	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Rethinking Complex Neural Network Architectures for Document Classification	Jun 1, 2019	ClassificationDocument Classification	CodeCode Available	0
Show Some Love to Your n-grams: A Bit of Progress and Stronger n-gram Language Modeling Baselines	Jun 1, 2019	BenchmarkingLanguage Modeling	—Unverified	0
Speak up, Fight Back! Detection of Social Media Disclosures of Sexual Harassment	Jun 1, 2019	ClassificationGeneral Classification	—Unverified	0
Neural GRANNy at SemEval-2019 Task 2: A combined approach for better modeling of semantic relationships in semantic frame induction	Jun 1, 2019	ClusteringLanguage Modeling	—Unverified	0
Multilingual prediction of Alzheimer's disease through domain adaptation and concept-based language modelling	Jun 1, 2019	Domain AdaptationLanguage Modeling	—Unverified	0
nlpUP at SemEval-2019 Task 6: A Deep Neural Language Model for Offensive Language Detection	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Understanding the Behaviour of Neural Abstractive Summarizers using Contrastive Examples	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
UNBNLP at SemEval-2019 Task 5 and 6: Using Language Models to Detect Hate Speech and Offensive Language	Jun 1, 2019	General ClassificationLanguage Modeling	—Unverified	0
Adversarial Generation and Encoding of Nested Texts	Jun 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Learning to Generate Grounded Visual Captions without Localization Supervision	Jun 1, 2019	Image CaptioningLanguage Modelling	CodeCode Available	1
Table2Vec: Neural Word and Entity Embeddings for Table Population and Retrieval	May 31, 2019	Entity EmbeddingsLanguage Modeling	CodeCode Available	0
A Simple but Effective Method to Incorporate Multi-turn Context with BERT for Conversational Machine Comprehension	May 30, 2019	Language ModelingLanguage Modelling	—Unverified	0
A Compare-Aggregate Model with Latent Clustering for Answer Selection	May 30, 2019	Answer SelectionClustering	—Unverified	0
Lattice-based lightly-supervised acoustic model training	May 30, 2019	Language ModelingLanguage Modelling	—Unverified	0
LANGUAGE MODEL EMBEDDINGS IMPROVE SENTIMENT ANALYSIS IN RUSSIAN	May 29, 2019	ArticlesLanguage Modeling	CodeCode Available	0
Regularization Advantages of Multilingual Neural Language Models for Low Resource Domains	May 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 310 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified