Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13651–13700 of 17610 papers

Title	Date	Tasks	Status	Hype
Controllable Generation from Pre-trained Language Models via Inverse Prompting	Mar 19, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation	Mar 19, 2021	Language ModelingLanguage Modelling	—Unverified	0
Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation	Mar 18, 2021	Bilingual Lexicon InductionLanguage Modeling	CodeCode Available	1
GPT Understands, Too	Mar 18, 2021	Knowledge ProbingLanguage Modeling	CodeCode Available	2
GLM: General Language Model Pretraining with Autoregressive Blank Infilling	Mar 18, 2021	Abstractive Text SummarizationClassification	CodeCode Available	3
Structure Inducing Pre-Training	Mar 18, 2021	DescriptiveInductive Bias	CodeCode Available	1
Refining Language Models with Compositional Explanations	Mar 18, 2021	FairnessLanguage Modelling	CodeCode Available	1
Set-to-Sequence Methods in Machine Learning: a Review	Mar 17, 2021	BIG-bench Machine LearningLanguage Modeling	—Unverified	0
Towards Few-Shot Fact-Checking via Perplexity	Mar 17, 2021	Fact CheckingFew-Shot Learning	—Unverified	0
Value-aware Approximate Attention	Mar 17, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning with Self-Knowledge Distillation	Mar 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
UniParma at SemEval-2021 Task 5: Toxic Spans Detection Using CharacterBERT and Bag-of-Words Model	Mar 17, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
Advancing RNN Transducer Technology for Speech Recognition	Mar 17, 2021	Language ModelingLanguage Modelling	—Unverified	0
Double Articulation Analyzer with Prosody for Unsupervised Word and Phoneme Discovery	Mar 15, 2021	Language ModellingTime Series	CodeCode Available	0
Claim Verification using a Multi-GAN based Model	Mar 14, 2021	Claim VerificationLanguage Modeling	—Unverified	0
Learning a Word-Level Language Model with Sentence-Level Noise Contrastive Estimation for Contextual Sentence Probability Estimation	Mar 14, 2021	Language ModelingLanguage Modelling	—Unverified	0
Optimal Embedding Calibration for Symbolic Music Similarity	Mar 13, 2021	Language ModelingLanguage Modelling	—Unverified	0
Improving Diversity of Neural Text Generation via Inverse Probability Weighting	Mar 13, 2021	DiversityLanguage Modeling	—Unverified	0
Inductive Relation Prediction by BERT	Mar 12, 2021	Few-Shot LearningInductive Learning	CodeCode Available	1
Bilingual Dictionary-based Language Model Pretraining for Neural Machine Translation	Mar 12, 2021	Language ModelingLanguage Modelling	—Unverified	0
Evaluation of Morphological Embeddings for English and Russian Languages	Mar 11, 2021	Language ModelingLanguage Modelling	—Unverified	0
Learning Feature Weights using Reward Modeling for Denoising Parallel Corpora	Mar 11, 2021	DenoisingLanguage Modeling	—Unverified	0
On Improving Deep Learning Trace Analysis with System Call Arguments	Mar 11, 2021	Deep LearningLanguage Modelling	—Unverified	0
Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition	Mar 11, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
MERMAID: Metaphor Generation with Symbolism and Discriminative Decoding	Mar 11, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models	Mar 11, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Relational Weight Priors in Neural Networks for Abstract Pattern Learning and Language Modelling	Mar 10, 2021	Inductive BiasLanguage Modelling	—Unverified	0
Combining Context-Free and Contextualized Representations for Arabic Sarcasm Detection and Sentiment Identification	Mar 9, 2021	Language ModelingLanguage Modelling	—Unverified	0
MTLHealth: A Deep Learning System for Detecting Disturbing Content in Student Essays	Mar 7, 2021	Language ModelingLanguage Modelling	—Unverified	0
Extracting Semantic Process Information from the Natural Language in Event Logs	Mar 6, 2021	AttributeLanguage Modeling	—Unverified	0
Advances in Multi-turn Dialogue Comprehension: A Survey	Mar 4, 2021	DiversityLanguage Modelling	—Unverified	0
OAG-BERT: Towards A Unified Backbone Language Model For Academic Knowledge Services	Mar 3, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Random Feature Attention	Mar 3, 2021	Language ModelingLanguage Modelling	—Unverified	0
University of Copenhagen Participation in TREC Health Misinformation Track 2020	Mar 3, 2021	Language ModelingLanguage Modelling	—Unverified	0
Unsupervised Word Segmentation with Bi-directional Neural Language Model	Mar 2, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
The Rediscovery Hypothesis: Language Models Need to Meet Linguistics	Mar 2, 2021	Language ModelingLanguage Modelling	—Unverified	0
Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines	Mar 1, 2021	Document RankingLanguage Modelling	—Unverified	0
Long Document Summarization in a Low Resource Setting using Pretrained Language Models	Mar 1, 2021	Abstractive Text SummarizationDocument Summarization	—Unverified	0
OmniNet: Omnidirectional Representations from Transformers	Mar 1, 2021	de-enFew-Shot Learning	CodeCode Available	0
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP	Feb 28, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
N-Shot Learning for Augmenting Task-Oriented Dialogue State Tracking	Feb 27, 2021	Data AugmentationDialogue State Tracking	—Unverified	0
Chess as a Testbed for Language Model State Tracking	Feb 26, 2021	Game of ChessLanguage Modeling	CodeCode Available	1
A Primer on Contrastive Pretraining in Language Processing: Methods, Lessons Learned and Perspectives	Feb 25, 2021	Contrastive LearningLanguage Modeling	—Unverified	0
ZJUKLAB at SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning	Feb 25, 2021	Language Model EvaluationLanguage Modeling	CodeCode Available	1
RoBERTa-wwm-ext Fine-Tuning for Chinese Text Classification	Feb 24, 2021	ClassificationGeneral Classification	CodeCode Available	1
PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains	Feb 24, 2021	Domain AdaptationLanguage Modelling	CodeCode Available	1
LRG at SemEval-2021 Task 4: Improving Reading Comprehension with Abstract Words using Augmentation, Linguistic Features and Voting	Feb 24, 2021	Language ModellingReading Comprehension	CodeCode Available	0
When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute	Feb 24, 2021	GPULanguage Modeling	CodeCode Available	2
From Universal Language Model to Downstream Task: Improving RoBERTa-Based Vietnamese Hate Speech Detection	Feb 24, 2021	Hate Speech DetectionLanguage Modeling	—Unverified	0
Evolutionary optimization of contexts for phonetic correction in speech recognition systems	Feb 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 274 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified