Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14251–14300 of 17610 papers

Title	Date	Tasks	Status	Hype
Solving Historical Dictionary Codes with a Neural Language Model	Oct 9, 2020	Language ModelingLanguage Modelling	—Unverified	0
Style Attuned Pre-training and Parameter Efficient Fine-tuning for Spoken Language Understanding	Oct 9, 2020	Domain AdaptationLanguage Modeling	—Unverified	0
Online Back-Parsing for AMR-to-Text Generation	Oct 9, 2020	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available	0
Multichannel Generative Language Model: Learning All Possible Factorizations Within and Across Channels	Oct 9, 2020	AllDiversity	—Unverified	0
Q-learning with Language Model for Edit-based Unsupervised Summarization	Oct 9, 2020	Abstractive Text SummarizationDecoder	CodeCode Available	1
Plug-and-Play Conversational Models	Oct 9, 2020	AttributeLanguage Modeling	CodeCode Available	1
Large Product Key Memory for Pretrained Language Models	Oct 8, 2020	Causal Language ModelingLanguage Modeling	CodeCode Available	0
Tatum-Level Drum Transcription Based on a Convolutional Recurrent Neural Network with Language Model-Based Regularized Training	Oct 8, 2020	Drum TranscriptionLanguage Modeling	—Unverified	0
Masked ELMo: An evolution of ELMo towards fully contextual RNN language models	Oct 8, 2020	Language ModelingLanguage Modelling	—Unverified	0
Evaluating the Effectiveness of Efficient Neural Architecture Search for Sentence-Pair Tasks	Oct 8, 2020	image-classificationImage Classification	—Unverified	0
On the importance of pre-training data volume for compact language models	Oct 8, 2020	FQuADLanguage Modeling	—Unverified	0
Precise Task Formalization Matters in Winograd Schema Evaluations	Oct 8, 2020	Language ModelingLanguage Modelling	CodeCode Available	0
A Mathematical Exploration of Why Language Models Help Solve Downstream Tasks	Oct 7, 2020	ClassificationGeneral Classification	—Unverified	0
Cross-Thought for Sentence Encoder Pre-training	Oct 7, 2020	Information RetrievalLanguage Modeling	CodeCode Available	1
"I'd rather just go to bed": Understanding Indirect Answers	Oct 7, 2020	Language ModelingLanguage Modelling	—Unverified	0
Inductive Entity Representations from Text via Link Prediction	Oct 7, 2020	Inductive knowledge graph completionInductive Link Prediction	CodeCode Available	1
Beyond [CLS] through Ranking by Generation	Oct 6, 2020	Answer SelectionInformation Retrieval	—Unverified	0
Converting the Point of View of Messages Spoken to Virtual Assistants	Oct 6, 2020	Constituency ParsingLanguage Modelling	CodeCode Available	0
Compositional Demographic Word Embeddings	Oct 6, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Guiding Attention for Self-Supervised Learning with Transformers	Oct 6, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Learning to Represent Image and Text with Denotation Graph	Oct 6, 2020	AttributeImage Retrieval	—Unverified	0
Neural Mask Generator: Learning to Generate Adaptive Word Maskings for Language Model Adaptation	Oct 6, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Keep CALM and Explore: Language Models for Action Generation in Text-based Games	Oct 6, 2020	Action GenerationLanguage Modeling	CodeCode Available	1
Pretrained Language Model Embryology: The Birth of ALBERT	Oct 6, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Rank and run-time aware compression of NLP Applications	Oct 6, 2020	Intent DetectionLanguage Modeling	—Unverified	0
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding	Oct 5, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Acrostic Poem Generation	Oct 5, 2020	Language Modelling	—Unverified	0
Inference Strategies for Machine Translation with Conditional Masking	Oct 5, 2020	Language ModelingLanguage Modelling	—Unverified	0
A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese	Oct 5, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
GenAug: Data Augmentation for Finetuning Text Generators	Oct 5, 2020	Data AugmentationDiversity	CodeCode Available	1
Lifelong Language Knowledge Distillation	Oct 5, 2020	Knowledge DistillationLanguage Modelling	CodeCode Available	1
Linguistic Profiling of a Neural Language Model	Oct 5, 2020	Language ModelingLanguage Modelling	—Unverified	0
NLP Service APIs and Models for Efficient Registration of New Clients	Oct 4, 2020	GPULanguage Modeling	—Unverified	0
On Losses for Modern Language Models	Oct 4, 2020	Language ModellingPrediction	CodeCode Available	1
Static and Animated 3D Scene Generation from Free-form Text Descriptions	Oct 4, 2020	DecoderForm	CodeCode Available	1
When in Doubt, Ask: Generating Answerable and Unanswerable Questions, Unsupervised	Oct 4, 2020	Language ModelingLanguage Modelling	CodeCode Available	0
Personality Trait Detection Using Bagged SVM over BERT Word Embedding Ensembles	Oct 3, 2020	Language ModelingLanguage Modelling	—Unverified	0
LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention	Oct 2, 2020	Common Sense ReasoningEntity Typing	CodeCode Available	1
Syntax Representation in Word Embeddings and Neural Networks -- A Survey	Oct 2, 2020	Language ModelingLanguage Modelling	—Unverified	0
JAKET: Joint Pre-training of Knowledge Graph and Language Understanding	Oct 2, 2020	Knowledge GraphsLanguage Modeling	—Unverified	0
SparTerm: Learning Term-based Sparse Representation for Fast Text Retrieval	Oct 2, 2020	Language ModelingLanguage Modelling	—Unverified	0
XDA: Accurate, Robust Disassembly with Transfer Learning	Oct 2, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
WAE_RN: Integrating Wasserstein Autoencoder and Relational Network for Text Sequence	Oct 1, 2020	Language ModelingLanguage Modelling	—Unverified	0
Low-Resource Text Classification via Cross-lingual Language Model Fine-tuning	Oct 1, 2020	ClassificationLanguage Modeling	—Unverified	0
Multi-Reward based Reinforcement Learning for Neural Machine Translation	Oct 1, 2020	Language ModelingLanguage Modelling	—Unverified	0
Chinese Long and Short Form Choice Exploiting Neural Network Language Modeling Approaches	Oct 1, 2020	FormLanguage Modeling	—Unverified	0
Entity Relative Position Representation based Multi-head Selection for Joint Entity and Relation Extraction	Oct 1, 2020	Joint Entity and Relation ExtractionLanguage Modeling	—Unverified	0
A Novel Joint Framework for Multiple Chinese Events Extraction	Oct 1, 2020	Event ExtractionLanguage Modeling	—Unverified	0
Unsupervised Melody Segmentation Based on a Nested Pitman-Yor Language Model	Oct 1, 2020	Language ModelingLanguage Modelling	—Unverified	0
An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training	Oct 1, 2020	ClusteringLanguage Modeling	CodeCode Available	0

Show:10 25 50

← PrevPage 286 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified