Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13601–13650 of 17610 papers

Title	Date	Tasks	Status
Cross-Lingual Language Model Meta-Pretraining	Sep 23, 2021	Cross-Lingual TransferLanguage Modeling	—Unverified
LSTM Hyper-Parameter Selection for Malware Detection: Interaction Effects and Hierarchical Selection Approach	Sep 23, 2021	Intrusion DetectionLanguage Modeling	—Unverified
Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context Prediction Network	Sep 22, 2021	Knowledge DistillationLanguage Modeling	—Unverified
BFClass: A Backdoor-free Text Classification Framework	Sep 22, 2021	Backdoor AttackClassification	—Unverified
DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training Encoder	Sep 22, 2021	Dialogue UnderstandingEmotion Recognition	—Unverified
BERTweetFR : Domain Adaptation of Pre-Trained Language Models for French Tweets	Sep 21, 2021	Domain AdaptationLanguage Modeling	—Unverified
Distilling Relation Embeddings from Pre-trained Language Models	Sep 21, 2021	Knowledge GraphsLanguage Modeling	—Unverified
The Trade-offs of Domain Adaptation for Neural Language Models	Sep 21, 2021	Domain AdaptationLanguage Modeling	—Unverified
Learning Domain Specific Language Models for Automatic Speech Recognition through Machine Translation	Sep 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning Natural Language Generation from Scratch	Sep 20, 2021	Language ModelingLanguage Modelling	—Unverified
Influence of ASR and Language Model on Alzheimer's Disease Detection	Sep 20, 2021	Alzheimer's Disease DetectionLanguage Modeling	—Unverified
Adversarial Training with Contrastive Learning in NLP	Sep 19, 2021	Contrastive LearningLanguage Modeling	—Unverified
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition	Sep 19, 2021	Language ModelingLanguage Modelling	—Unverified
Multilingual Molecular Representation Learning via Contrastive Pre-training	Sep 18, 2021	Contrastive LearningLanguage Modeling	—Unverified
Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy	Sep 17, 2021	Code CompletionCode Generation	—Unverified
SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis	Sep 17, 2021	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
Language Models as a Knowledge Source for Cognitive Agents	Sep 17, 2021	Language ModellingNatural Language Inference	—Unverified
Primer: Searching for Efficient Transformers for Language Modeling	Sep 17, 2021	Language ModelingLanguage Modelling	CodeCode Available
Relating Neural Text Degeneration to Exposure Bias	Sep 17, 2021	Language ModelingLanguage Modelling	—Unverified
Machine Reading Comprehension: Generative or Extractive Reader?	Sep 17, 2021	DecoderLanguage Modeling	—Unverified
BART-light: One Decoder Layer Is Enough	Sep 17, 2021	DecoderLanguage Modeling	—Unverified
Exploring Multitask Learning for Low-Resource AbstractiveSummarization	Sep 17, 2021	Abstractive Text SummarizationExtractive Summarization	—Unverified
Does Commonsense help in detecting Sarcasm?	Sep 17, 2021	Language ModelingLanguage Modelling	CodeCode Available
Commonsense Knowledge-Augmented Pretrained Language Models for Causal Reasoning Classification	Sep 17, 2021	ClassificationCommonsense Causal Reasoning	—Unverified
A Bag of Tricks for Dialogue Summarization	Sep 16, 2021	ArticlesLanguage Modeling	—Unverified
Deep Algorithmic Question Answering: Towards a Compositionally Hybrid AI for Algorithmic Reasoning	Sep 16, 2021	image-classificationImage Classification	—Unverified
Do Language Models Know the Way to Rome?	Sep 16, 2021	Language ModelingLanguage Modelling	—Unverified
Let the CAT out of the bag: Contrastive Attributed explanations for Text	Sep 16, 2021	AttributeLanguage Modeling	—Unverified
The Language Model Understood the Prompt was Ambiguous: Probing Syntactic Uncertainty Through Generation	Sep 16, 2021	Language ModelingLanguage Modelling	—Unverified
Regularized Training of Nearest Neighbor Language Models	Sep 16, 2021	L2 RegularizationLanguage Modeling	—Unverified
MeLT: Message-Level Transformer with Masked Document Representations as Pre-Training for Stance Detection	Sep 16, 2021	AttributeLanguage Modeling	CodeCode Available
On the Complementarity of Data Selection and Fine Tuning for Domain Adaptation	Sep 15, 2021	Domain AdaptationDomain Generalization	—Unverified
RankNAS: Efficient Neural Architecture Search by Pairwise Ranking	Sep 15, 2021	Language ModelingLanguage Modelling	—Unverified
Tied & Reduced RNN-T Decoder	Sep 15, 2021	DecoderLanguage Modeling	—Unverified
Beyond Glass-Box Features: Uncertainty Quantification Enhanced Quality Estimation for Neural Machine Translation	Sep 15, 2021	Feature EngineeringLanguage Modeling	—Unverified
Comparing Text Representations: A Theory-Driven Approach	Sep 15, 2021	Language ModelingLanguage Modelling	CodeCode Available
"It doesn't look good for a date": Transforming Critiques into Preferences for Conversational Recommendation Systems	Sep 15, 2021	Common Sense ReasoningConversational Recommendation	CodeCode Available
Improving Text Auto-Completion with Next Phrase Prediction	Sep 15, 2021	Language ModelingLanguage Modelling	—Unverified
Efficient Domain Adaptation of Language Models via Adaptive Tokenization	Sep 15, 2021	Domain AdaptationLanguage Modelling	—Unverified
A Crawler Architecture for Harvesting the Clear, Social, and Dark Web for IoT-Related Cyber-Threat Intelligence	Sep 14, 2021	Language Modelling	—Unverified
Different Strokes for Different Folks: Investigating Appropriate Further Pre-training Approaches for Diverse Dialogue Tasks	Sep 14, 2021	Domain AdaptationLanguage Modelling	—Unverified
MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model	Sep 14, 2021	Language ModelingLanguage Modelling	CodeCode Available
KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language Models via Knowledge Distillation	Sep 13, 2021	Knowledge DistillationLanguage Modeling	—Unverified
Connecting degree and polarity: An artificial language learning study	Sep 13, 2021	Language ModelingLanguage Modelling	CodeCode Available
Single-Read Reconstruction for DNA Data Storage Using Transformers	Sep 12, 2021	Language ModelingLanguage Modelling	—Unverified
Towards Zero-shot Commonsense Reasoning with Self-supervised Refinement of Language Models	Sep 10, 2021	Language ModelingLanguage Modelling	CodeCode Available
Studying word order through iterative shuffling	Sep 10, 2021	Language ModelingLanguage Modelling	CodeCode Available
Dual-State Capsule Networks for Text Classification	Sep 10, 2021	ClassificationLanguage Modeling	—Unverified
EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling	Sep 10, 2021	Cross-Modal RetrievalLanguage Modeling	—Unverified
Enhancing Self-Disclosure In Neural Dialog Models By Candidate Re-ranking	Sep 10, 2021	Language ModellingOpen-Domain Dialog	—Unverified

Show:10 25 50

← PrevPage 273 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified