Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5851–5900 of 17610 papers

Title	Date	Tasks	Status	Score
Routing Networks and the Challenges of Modular and Compositional Computation	Apr 29, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Pre-Training a Graph Recurrent Network for Language Representation	Sep 8, 2022	Language ModellingSentence	CodeCode Available	5
Refining the Responses of LLMs by Themselves	May 6, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
More Expressive Attention with Negative Weights	Nov 11, 2024	DecoderImage Generation	CodeCode Available	5
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model	Mar 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness	Apr 29, 2024	EthicsLanguage Modelling	CodeCode Available	5
Establishing Vocabulary Tests as a Benchmark for Evaluating Large Language Models	Oct 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
More Room for Language: Investigating the Effect of Retrieval on Language Models	Apr 16, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Morfessor FlatCat: An HMM-Based Method for Unsupervised and Semi-Supervised Learning of Morphology	Aug 1, 2014	Language ModellingMorphological Analysis	CodeCode Available	5
Learning to Verify Summary Facts with Fine-Grained LLM Feedback	Dec 14, 2024	Fact VerificationLanguage Modeling	CodeCode Available	5
MorphAgent: Empowering Agents through Self-Evolving Profiles and Decentralized Collaboration	Oct 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
LLM-enhanced Self-training for Cross-domain Constituency Parsing	Nov 5, 2023	Constituency ParsingLanguage Modeling	CodeCode Available	5
The Crucial Role of Samplers in Online Direct Preference Optimization	Sep 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Representation of linguistic form and function in recurrent neural networks	Feb 29, 2016	FormLanguage Modeling	CodeCode Available	5
Quasi-Recurrent Neural Networks	Nov 5, 2016	Language ModelingLanguage Modelling	CodeCode Available	5
Representation Learning of Daily Movement Data Using Text Encoders	May 7, 2024	ClusteringLanguage Modeling	CodeCode Available	5
QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing	Oct 23, 2023	Discourse ParsingLanguage Modeling	CodeCode Available	5
Round Trip Translation Defence against Large Language Model Jailbreaking Attacks	Feb 21, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models	Feb 9, 2025	Answer GenerationLanguage Modeling	CodeCode Available	5
Muppet: Massive Multi-task Representations with Pre-Finetuning	Jan 26, 2021	Abstractive Text SummarizationCommon Sense Reasoning	CodeCode Available	5
QueerBench: Quantifying Discrimination in Language Models Toward Queer Identities	Jun 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Network-informed Prompt Engineering against Organized Astroturf Campaigns under Extreme Class Imbalance	Jan 21, 2025	Data AugmentationLanguage Modeling	CodeCode Available	5
Neural Networks Against (and For) Self-Training: Classification with Small Labeled and Large Unlabeled Sets	Dec 31, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
The Distributional Hypothesis Does Not Fully Explain the Benefits of Masked Language Model Pretraining	Oct 25, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Recurrent Memory Networks for Language Modeling	Jan 6, 2016	Language ModelingLanguage Modelling	CodeCode Available	5
Representation Degeneration Problem in Training Natural Language Generation Models	Jul 28, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Language Model Guided Interpretable Video Action Reasoning	Apr 2, 2024	Action RecognitionDecision Making	CodeCode Available	5
Pre-Training of Deep Bidirectional Protein Sequence Representations with Structural Information	Nov 25, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
TULUN: Transparent and Adaptable Low-resource Machine Translation	May 24, 2025	Domain AdaptationLanguage Modeling	CodeCode Available	5
MuseChat: A Conversational Music Recommendation System for Videos	Oct 10, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
The Effectiveness of Masked Language Modeling and Adapters for Factual Knowledge Injection	Oct 3, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
NeSy is alive and well: A LLM-driven symbolic approach for better code comment data generation and classification	Feb 25, 2024	ClassificationData Augmentation	CodeCode Available	5
The Effect of Different Writing Tasks on Linguistic Style: A Case Study of the ROC Story Cloze Task	Feb 7, 2017	Language ModelingLanguage Modelling	CodeCode Available	5
The effect of fine-tuning on language model toxicity	Oct 21, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Public Attitudes Toward ChatGPT on Twitter: Sentiments, Topics, and Occupations	Jun 22, 2023	ChatbotLanguage Modelling	CodeCode Available	5
Learning Better Masking for Better Language Model Pre-training	Aug 23, 2022	DenoisingLanguage Modeling	CodeCode Available	5
Rotational Unit of Memory	Oct 26, 2017	Language ModelingLanguage Modelling	CodeCode Available	5
The Effects of In-domain Corpus Size on pre-training BERT	Dec 15, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
Logical Implications for Visual Question Answering Consistency	Mar 16, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
The emergence of number and syntax units in LSTM language models	Mar 18, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning	Jun 16, 2024	knowledge editingLanguage Modeling	CodeCode Available	5
Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models	Oct 22, 2024	HallucinationLanguage Modeling	CodeCode Available	5
LLM-GEm: Large Language Model-Guided Prediction of People’s Empathy Levels towards Newspaper Article	Mar 19, 2024	ArticlesLanguage Modeling	CodeCode Available	5
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
"I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities	Dec 26, 2024	Domain AdaptationLanguage Modeling	CodeCode Available	5
The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented Intervention	Jun 29, 2024	DiversityImage Generation	CodeCode Available	5
Learning Python Code Suggestion with a Sparse Pointer Network	Nov 24, 2016	Language ModelingLanguage Modelling	CodeCode Available	5
Letter-Based Speech Recognition with Gated ConvNets	Dec 22, 2017	DecoderLanguage Modeling	CodeCode Available	5
Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays	Feb 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
No Wrong Turns: The Simple Geometry Of Neural Networks Optimization Paths	Jun 20, 2023	image-classificationImage Classification	CodeCode Available	5

Show:10 25 50

← PrevPage 118 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified