Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14751–14800 of 17610 papers

Title	Date	Tasks	Status
How Self-Attention Improves Rare Class Performance in a Question-Answering Dialogue Agent	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
Can Wikipedia Categories Improve Masked Language Model Pretraining?	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
Cross-Lingual Unsupervised Sentiment Classification with Multi-View Transfer Learning	Jul 1, 2020	ClassificationCross-Lingual Sentiment Classification	—Unverified
Do Transformers Need Deep Long-Range Memory?	Jul 1, 2020	Deep AttentionLanguage Modelling	—Unverified
Long-Tail Predictions with Continuous-Output Language Models	Jul 1, 2020	ArticlesDiversity	—Unverified
To Pretrain or Not to Pretrain: Examining the Benefits of Pretrainng on Resource Rich Tasks	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
Jointly Masked Sequence-to-Sequence Model for Non-Autoregressive Neural Machine Translation	Jul 1, 2020	DecoderLanguage Modeling	—Unverified
Monolingual corpus creation and evaluation of truly low-resource languages from Peru	Jul 1, 2020	Language Modelling	—Unverified
SyntaxGym: An Online Platform for Targeted Evaluation of Language Models	Jul 1, 2020	Experimental DesignLanguage Modeling	—Unverified
Modeling Code-Switch Languages Using Bilingual Parallel Corpus	Jul 1, 2020	Bilingual Lexicon InductionLanguage Modeling	—Unverified
Max-Margin Incremental CCG Parsing	Jul 1, 2020	Language ModellingSentence	—Unverified
The AFRL IWSLT 2020 Systems: Work-From-Home Edition	Jul 1, 2020	Action DetectionActivity Detection	—Unverified
Tigrinya Automatic Speech recognition with Morpheme based recognition units	Jul 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semi-supervised Contextual Historical Text Normalization	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
What Does BERT with Vision Look At?	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
Using Social Media For Bitcoin Day Trading Behavior Prediction	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
Technical Report: Auxiliary Tuning and its Application to Conditional Text Generation	Jun 30, 2020	Conditional Text GenerationLanguage Modeling	—Unverified
Knowledge-Aware Language Model Pretraining	Jun 29, 2020	Knowledge ProbingLanguage Modeling	—Unverified
Want to Identify, Extract and Normalize Adverse Drug Reactions in Tweets? Use RoBERTa	Jun 29, 2020	Binary ClassificationGeneral Classification	—Unverified
Mind The Facts: Knowledge-Boosted Coherent Abstractive Text Summarization	Jun 27, 2020	Abstractive Text SummarizationDecoder	—Unverified
Normalizing Text using Language Modelling based on Phonetics and String Similarity	Jun 25, 2020	Language ModelingLanguage Modelling	—Unverified
Differentiable Window for Dynamic Local Attention	Jun 24, 2020	Language ModelingLanguage Modelling	—Unverified
Exploring Software Naturalness through Neural Language Models	Jun 22, 2020	Language ModelingLanguage Modelling	—Unverified
Clinical Predictive Keyboard using Statistical and Neural Language Modeling	Jun 22, 2020	Language ModelingLanguage Modelling	—Unverified
Memory Transformer	Jun 20, 2020	Language ModelingLanguage Modelling	CodeCode Available
I-BERT: Inductive Generalization of Transformer to Arbitrary Context Lengths	Jun 18, 2020	Language ModelingLanguage Modelling	CodeCode Available
Explainable and Discourse Topic-aware Neural Language Understanding	Jun 18, 2020	Document ClassificationLanguage Modeling	CodeCode Available
Tagging and parsing of multidomain collections	Jun 17, 2020	Dependency ParsingLanguage Modeling	CodeCode Available
To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on Resource Rich Tasks	Jun 15, 2020	Language ModelingLanguage Modelling	—Unverified
Cooking Is All About People: Comment Classification On Cookery Channels Using BERT and Classification Models (Malayalam-English Mix-Code)	Jun 15, 2020	AllClassification	—Unverified
Transferring Monolingual Model to Low-Resource Language: The Case of Tigrinya	Jun 13, 2020	Language ModelingLanguage Modelling	—Unverified
AlgebraNets	Jun 12, 2020	Computational Efficiencyimage-classification	CodeCode Available
Improving Cross-Lingual Transfer Learning for End-to-End Speech Recognition with Speech Translation	Jun 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Examination and Extension of Strategies for Improving Personalized Language Modeling via Interpolation	Jun 9, 2020	Language ModelingLanguage Modelling	—Unverified
On the Effectiveness of Neural Text Generation based Data Augmentation for Recognition of Morphologically Rich Speech	Jun 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mathematical Reasoning via Self-supervised Skip-tree Training	Jun 8, 2020	Language ModelingLanguage Modelling	—Unverified
The Lipschitz Constant of Self-Attention	Jun 8, 2020	Adversarial RobustnessLanguage Modelling	—Unverified
Misinformation Has High Perplexity	Jun 8, 2020	Language ModelingLanguage Modelling	CodeCode Available
Language Models as Fact Checkers?	Jun 7, 2020	Common Sense ReasoningLanguage Modeling	—Unverified
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers	Jun 5, 2020	Language ModelingLanguage Modelling	—Unverified
Tensorized Transformer for Dynamical Systems Modeling	Jun 5, 2020	Language ModelingLanguage Modelling	—Unverified
GMAT: Global Memory Augmentation for Transformers	Jun 5, 2020	Language ModelingLanguage Modelling	CodeCode Available
A Dataset and Benchmarks for Multimedia Social Analysis	Jun 5, 2020	Image Captioningimage-classification	—Unverified
Contextual RNN-T For Open Domain ASR	Jun 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-model Back-translated Distillation for Unsupervised Machine Translation	Jun 3, 2020	DenoisingDiversity	CodeCode Available
Transfer Learning for British Sign Language Modelling	Jun 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Position Masking for Language Models	Jun 2, 2020	Language ModelingLanguage Modelling	—Unverified
Segatron: Segment-aware Transformer for Language Modeling and Understanding	Jun 2, 2020	Language ModelingLanguage Modelling	—Unverified
Contextualized French Language Models for Biomedical Named Entity Recognition	Jun 1, 2020	AnatomyLanguage Modeling	—Unverified
FlauBERT : des mod\`eles de langue contextualis\'es pr\'e-entra\^ \'es pour le fran (FlauBERT : Unsupervised Language Model Pre-training for French)	Jun 1, 2020	FLUELanguage Modeling	CodeCode Available

Show:10 25 50

← PrevPage 296 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified