Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5951–6000 of 17610 papers

Title	Date	Tasks	Status	Score
Nested LSTMs	Jan 31, 2018	Language ModelingLanguage Modelling	CodeCode Available	5
Recurrent Neural Network Grammars	Feb 25, 2016	Constituency ParsingLanguage Modeling	CodeCode Available	5
NoPPA: Non-Parametric Pairwise Attention Random Walk Model for Sentence Representation	Feb 24, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Jamba: A Hybrid Transformer-Mamba Language Model	Mar 28, 2024	GPULanguage Modeling	CodeCode Available	5
RNN Simulations of Grammaticality Judgments on Long-distance Dependencies	Aug 1, 2018	Language ModelingLanguage Modelling	CodeCode Available	5
Prix-LM: Pretraining for Multilingual Knowledge Base Construction	Oct 16, 2021	Bilingual Lexicon InductionCausal Language Modeling	CodeCode Available	5
Multi-Objective Large Language Model Unlearning	Dec 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Language-Based Augmentation to Address Shortcut Learning in Object Goal Navigation	Feb 7, 2024	Deep Reinforcement LearningLanguage Modelling	CodeCode Available	5
Multi-objective Reinforcement learning from AI Feedback	Jun 11, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions	Jan 3, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content	Jun 17, 2024	BenchmarkingGeneral Knowledge	CodeCode Available	5
Neural models for Factual Inconsistency Classification with Explanations	Jun 15, 2023	8kClassification	CodeCode Available	5
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute	Sep 20, 2023	Language Modelling	CodeCode Available	5
Lower Perplexity is Not Always Human-Like	Jun 2, 2021	Language ModelingLanguage Modelling	CodeCode Available	5
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available	5
Question answering system of bridge design specification based on large language model	Aug 26, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Large Language Model Capabilities in Perioperative Risk Prediction and Prognostication	Jan 3, 2024	ClassificationICU Admission	CodeCode Available	5
RNNs as psycholinguistic subjects: Syntactic state and grammatical dependency	Sep 5, 2018	Language ModelingLanguage Modelling	CodeCode Available	5
Low-Resource Sequence Labeling via Unsupervised Multilingual Contextualized Representations	Oct 24, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Probing BERT's priors with serial reproduction chains	Feb 24, 2022	Language ModellingMasked Language Modeling	CodeCode Available	5
Nano: Nested Human-in-the-Loop Reward Learning for Few-shot Language Model Control	Nov 10, 2022	AttributeFairness	CodeCode Available	5
Natural Language Understanding with Distributed Representation	Nov 24, 2015	Language ModellingMachine Translation	CodeCode Available	5
Replacing Language Model for Style Transfer	Nov 14, 2022	DisentanglementLanguage Modeling	CodeCode Available	5
Probing Linguistic Information For Logical Inference In Pre-trained Language Models	Dec 3, 2021	Language ModelingLanguage Modelling	CodeCode Available	5
RL, but don't do anything I wouldn't do	Oct 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Investigating Recurrent Transformers with Dynamic Halt	Feb 1, 2024	DiagnosticLanguage Modeling	CodeCode Available	5
Learning Composition Models for Phrase Embeddings	Jan 1, 2015	Language ModelingLanguage Modelling	CodeCode Available	5
Recoding latent sentence representations -- Dynamic gradient-based activation modification in RNNs	Jan 3, 2021	Language ModelingLanguage Modelling	CodeCode Available	5
The merits of Universal Language Model Fine-tuning for Small Datasets -- a case with Dutch book reviews	Oct 2, 2019	ClassificationGeneral Classification	CodeCode Available	5
Learning Compressed Transforms with Low Displacement Rank	Oct 4, 2018	image-classificationImage Classification	CodeCode Available	5
Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension	Apr 21, 2019	Data AugmentationLanguage Modelling	CodeCode Available	5
Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning	Oct 19, 2024	AvgLanguage Modeling	CodeCode Available	5
Probing Simile Knowledge from Pre-trained Language Models	Apr 27, 2022	DiversityLanguage Modelling	CodeCode Available	5
Manifold-Preserving Transformers are Effective for Short-Long Range Encoding	Oct 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
The MiniPile Challenge for Data-Efficient Language Models	Apr 17, 2023	DiversityLanguage Modeling	CodeCode Available	5
Training-free Lexical Backdoor Attacks on Language Models	Feb 8, 2023	Backdoor AttackData Poisoning	CodeCode Available	5
LLMPC: Large Language Model Predictive Control	Jan 5, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Probing the Capacity of Language Model Agents to Operationalize Disparate Experiential Context Despite Distraction	Nov 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Probing the Robustness Properties of Neural Speech Codecs	May 30, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
The Mysterious Case of Neuron 1512: Injectable Realignment Architectures Reveal Internal Characteristics of Meta's Llama 2 Model	Jul 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering	Feb 16, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Non-autoregressive Sequence-to-Sequence Vision-Language Models	Mar 4, 2024	DecoderLanguage Modeling	CodeCode Available	5
TwinBooster: Synergising Large Language Models with Barlow Twins and Gradient Boosting for Enhanced Molecular Property Prediction	Jan 9, 2024	Drug DiscoveryLanguage Modeling	CodeCode Available	5
Learning to Plan for Language Modeling from Unlabeled Data	Mar 31, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
MpoxVLM: A Vision-Language Model for Diagnosing Skin Lesions from Mpox Virus Infection	Nov 16, 2024	DiagnosticInstruction Following	CodeCode Available	5
Problem-Solving in Language Model Networks	Jun 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Music-robust Automatic Lyrics Transcription of Polyphonic Music	Apr 7, 2022	Automatic Lyrics TranscriptionLanguage Modeling	CodeCode Available	5
Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models	Apr 17, 2024	Decision MakingLanguage Modelling	CodeCode Available	5
Multiple-Source Domain Adaptation via Coordinated Domain Encoders and Paired Classifiers	Jan 28, 2022	Cross-Domain Text ClassificationDomain Adaptation	CodeCode Available	5
Language Model Behavior: A Comprehensive Survey	Mar 20, 2023	Language ModelingLanguage Modelling	CodeCode Available	5

Show:10 25 50

← PrevPage 120 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified