Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15901–15950 of 17610 papers

Title	Date	Tasks	Status
What represents ``style'' in authorship attribution?	Aug 1, 2018	Authorship AttributionLanguage Modeling	—Unverified
Transfer Learning for a Letter-Ngrams to Word Decoder in the Context of Historical Handwriting Recognition with Scarce Resources	Aug 1, 2018	DecoderHandwriting Recognition	—Unverified
Reproducing and Regularizing the SCRN Model	Aug 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
RNN Simulations of Grammaticality Judgments on Long-distance Dependencies	Aug 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
Neural Machine Translation with Decoding History Enhanced Attention	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
A Deep Dive into Word Sense Disambiguation with LSTM	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
Contextual String Embeddings for Sequence Labeling	Aug 1, 2018	ChunkingLanguage Modeling	CodeCode Available
Birzeit Arabic Dialect Identification System for the 2018 VarDial Challenge	Aug 1, 2018	Dialect IdentificationLanguage Modeling	—Unverified
Addressing the Winograd Schema Challenge as a Sequence Ranking Task	Aug 1, 2018	Coreference ResolutionLanguage Modeling	—Unverified
Kawenn\'on:nis: the Wordmaker for Kanyen'k\'eha	Aug 1, 2018	Language ModelingLanguage Modelling	—Unverified
Iterative Language Model Adaptation for Indo-Aryan Language Identification	Aug 1, 2018	Language IdentificationLanguage Modeling	—Unverified
Code-Switching Detection with Data-Augmented Acoustic and Language Models	Jul 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Acoustic and Textual Data Augmentation for Improved ASR of Code-Switching Speech	Jul 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Hierarchical Approach to Neural Context-Aware Modeling	Jul 27, 2018	Binary ClassificationLanguage Modeling	—Unverified
A Comparison of Techniques for Language Model Integration in Encoder-Decoder Speech Recognition	Jul 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
"Bilingual Expert" Can Find Translation Errors	Jul 25, 2018	Language ModelingLanguage Modelling	CodeCode Available
Automatic Speech Recognition for Humanitarian Applications in Somali	Jul 23, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Acoustic-to-Word Recognition with Sequence-to-Sequence Models	Jul 23, 2018	Language ModelingLanguage Modelling	—Unverified
What is not where: the challenge of integrating spatial representations into deep learning architectures	Jul 21, 2018	Caption GenerationDeep Learning	—Unverified
Hierarchical Multi Task Learning With CTC	Jul 18, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Explainable Recommendations with Synthetic Reviews	Jul 18, 2018	Language Model EvaluationLanguage Modeling	—Unverified
Guess who? Multilingual approach for the automated generation of author-stylized poetry	Jul 17, 2018	Language ModelingLanguage Modelling	—Unverified
Hybrid CTC-Attention based End-to-End Speech Recognition using Subword Units	Jul 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Comparison of Adaptation Techniques and Recurrent Neural Network Architectures	Jul 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Iterative evaluation of LSTM cells	Jul 11, 2018	Language ModelingLanguage Modelling	—Unverified
Universal Transformers	Jul 10, 2018	Inductive BiasLAMBADA	CodeCode Available
Multi-D Kneser-Ney Smoothing Preserving the Original Marginal Distributions	Jul 10, 2018	Language Modelling	—Unverified
Revisiting the Hierarchical Multiscale LSTM	Jul 10, 2018	Language ModelingLanguage Modelling	—Unverified
Deep-speare: A Joint Neural Model of Poetic Language, Meter and Rhyme	Jul 10, 2018	Language ModelingLanguage Modelling	CodeCode Available
Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction	Jul 8, 2018	DecoderLanguage Modeling	—Unverified
Learning The Sequential Temporal Information with Recurrent Neural Networks	Jul 8, 2018	Image CaptioningLanguage Modeling	—Unverified
Improved training of neural trans-dimensional random field language models with dynamic noise-contrastive estimation	Jul 3, 2018	Language ModelingLanguage Modelling	CodeCode Available
Neural Random Projections for Language Modelling	Jul 2, 2018	Language Modelling	—Unverified
A Unified Neural Architecture for Joint Dialog Act Segmentation and Recognition in Spoken Dialog System	Jul 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Feature Optimization for Predicting Readability of Arabic L1 and L2	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
A Hybrid Learning Scheme for Chinese Word Embedding	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
CYUT-III Team Chinese Grammatical Error Diagnosis System Report in NLPTEA-2018 CGED Shared Task	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Compositional Language Modeling for Icon-Based Augmentative and Alternative Communication	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Baseline: A Library for Rapid Modeling, Experimentation and Development of Deep Learning Algorithms targeting NLP	Jul 1, 2018	Deep LearningLanguage Modeling	CodeCode Available
Enhancement of Encoder and Attention Using Target Monolingual Corpora in Neural Machine Translation	Jul 1, 2018	DecoderDiversity	—Unverified
Language Informed Modeling of Code-Switched Text	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Learning Hierarchical Structures On-The-Fly with a Recurrent-Recursive Model for Sequences	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Text Completion using Context-Integrated Dependency Parsing	Jul 1, 2018	Decision MakingDependency Parsing	—Unverified
On Learning Better Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data	Jul 1, 2018	Disease PredictionInformation Retrieval	—Unverified
Thank ``Goodness''! A Way to Measure Style in Student Essays	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Language Production Dynamics with Recurrent Neural Networks	Jul 1, 2018	Caption GenerationLanguage Modeling	—Unverified
NILC-SWORNEMO at the Surface Realization Shared Task: Exploring Syntax-Based Word Ordering using Neural Models	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Joint Part-of-Speech and Language ID Tagging for Code-Switched Data	Jul 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
The OSU Realizer for SRST `18: Neural Sequence-to-Sequence Inflection and Incremental Locality-Based Linearization	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Investigating Effective Parameters for Fine-tuning of Word Embeddings Using Only a Small Corpus	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 319 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified