Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17551–17600 of 17610 papers

Title	Date	Tasks	Status
Combating Adversarial Attacks with Multi-Agent Debate	Jan 11, 2024	Language ModelingLanguage Modelling	CodeCode Available
COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences	Oct 30, 2024	Language ModelingLanguage Modelling	CodeCode Available
Colorless green recurrent networks dream hierarchically	Mar 29, 2018	Language ModelingLanguage Modelling	CodeCode Available
Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences	Oct 18, 2023	Language ModelingLanguage Modelling	CodeCode Available
CoLMbo: Speaker Language Model for Descriptive Profiling	Jun 11, 2025	DescriptiveLanguage Modeling	CodeCode Available
Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control	Feb 17, 2025	Language ModelingLanguage Modelling	CodeCode Available
Authorship Attribution Using a Neural Network Language Model	Feb 17, 2016	Authorship AttributionLanguage Modeling	CodeCode Available
ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding	Oct 19, 2023	Image CaptioningLanguage Modeling	CodeCode Available
Collaborative Stance Detection via Small-Large Language Model Consistency Verification	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available
Collaborative Development of NLP models	May 20, 2023	Language ModellingLarge Language Model	CodeCode Available
Fast-Slow Recurrent Neural Networks	May 24, 2017	Language ModelingLanguage Modelling	CodeCode Available
Pre-training of Graph Augmented Transformers for Medication Recommendation	Jun 2, 2019	Language ModelingLanguage Modelling	CodeCode Available
Fast, Small and Exact: Infinite-order Language Modelling with Compressed Suffix Trees	Aug 16, 2016	Language ModelingLanguage Modelling	CodeCode Available
FASTSUBS: An Efficient and Exact Procedure for Finding the Most Likely Lexical Substitutes Based on an N-gram Language Model	May 24, 2012	Language ModelingLanguage Modelling	CodeCode Available
ColBERT Retrieval and Ensemble Response Scoring for Language Model Question Answering	Aug 20, 2024	Language ModelingLanguage Modelling	CodeCode Available
Analyzing constrained LLM through PDFA-learning	Jun 12, 2024	Language ModelingLanguage Modelling	CodeCode Available
Graph-based Uncertainty Metrics for Long-form Language Model Outputs	Oct 28, 2024	FormInformativeness	CodeCode Available
Cognate Transformer for Automated Phonological Reconstruction and Cognate Reflex Prediction	Oct 11, 2023	Language ModelingLanguage Modelling	CodeCode Available
Fast Training of Recurrent Neural Networks with Stationary State Feedbacks	Mar 29, 2025	Language ModelingLanguage Modelling	CodeCode Available
Fast transcription of speech in low-resource languages	Sep 16, 2019	Language ModelingLanguage Modelling	CodeCode Available
CogALex-VI Shared Task: Transrelation - A Robust Multilingual Language Model for Multilingual Relation Identification	Dec 12, 2020	Hypernym DiscoveryLanguage Modeling	CodeCode Available
FastTrees: Parallel Latent Tree-Induction for Faster Sequence Encoding	Nov 28, 2021	Language ModelingLanguage Modelling	CodeCode Available
CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models	Dec 22, 2024	Language ModelingLanguage Modelling	CodeCode Available
Why gradient clipping accelerates training: A theoretical justification for adaptivity	May 28, 2019	General ClassificationImage Classification	CodeCode Available
Coding Textual Inputs Boosts the Accuracy of Neural Networks	Nov 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
Improving Segmentation for Technical Support Problems	May 22, 2020	Language ModelingLanguage Modelling	CodeCode Available
IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction	Aug 19, 2024	Language ModelingLanguage Modelling	CodeCode Available
Code Soliloquies for Accurate Calculations in Large Language Models	Sep 21, 2023	Language ModellingLarge Language Model	CodeCode Available
Enhancing Source Code Classification Effectiveness via Prompt Learning Incorporating Knowledge Features	Jan 10, 2024	ClassificationCode Classification	CodeCode Available
Decomposed Prompting to Answer Questions on a Course Discussion Board	Jul 30, 2024	Language ModelingLanguage Modelling	CodeCode Available
Investigating and Extending Homans' Social Exchange Theory with Large Language Model based Agents	Feb 18, 2025	Language ModelingLanguage Modelling	CodeCode Available
Adaptation of domain-specific transformer models with text oversampling for sentiment analysis of social media posts on Covid-19 vaccines	Sep 22, 2022	Language ModelingLanguage Modelling	CodeCode Available
A Hybrid GA LLM Framework for Structured Task Optimization	Jun 9, 2025	global-optimizationLanguage Modeling	CodeCode Available
Graphemic Normalization of the Perso-Arabic Script	Oct 21, 2022	Language ModelingLanguage Modelling	CodeCode Available
AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment on AdamW Basis	Sep 5, 2023	image-classificationImage Classification	CodeCode Available
GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language Models	Oct 12, 2023	Answer GenerationHallucination	CodeCode Available
Author Identification using Multi-headed Recurrent Neural Networks	Jun 16, 2015	Language ModelingLanguage Modelling	CodeCode Available
Identifying and Adapting Transformer-Components Responsible for Gender Bias in an English Language Model	Oct 19, 2023	Causal DiscoveryLanguage Modeling	CodeCode Available
Identifying and Extracting Rare Disease Phenotypes with Large Language Models	Jun 22, 2023	Language ModellingLarge Language Model	CodeCode Available
Graph-Induced Syntactic-Semantic Spaces in Transformer-Based Variational AutoEncoders	Nov 14, 2023	Language ModellingMulti-Task Learning	CodeCode Available
Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training	Apr 2, 2025	Language ModelingLanguage Modelling	CodeCode Available
A Unifying View On Task-oriented Dialogue Annotation	Jun 1, 2022	Dialogue GenerationDialogue State Tracking	CodeCode Available
Summarization-Based Document IDs for Generative Retrieval with Language Models	Nov 14, 2023	ArticlesLanguage Modeling	CodeCode Available
A Unified Taxonomy-Guided Instruction Tuning Framework for Entity Set Expansion and Taxonomy Expansion	Feb 20, 2024	Language ModelingLanguage Modelling	CodeCode Available
CodeKGC: Code Language Model for Generative Knowledge Graph Construction	Apr 18, 2023	Code Completiongraph construction	CodeCode Available
InPars-Light: Cost-Effective Unsupervised Training of Efficient Rankers	Jan 8, 2023	Language ModellingRe-Ranking	CodeCode Available
A Hybrid Convolutional Variational Autoencoder for Text Generation	Feb 8, 2017	DecoderLanguage Modeling	CodeCode Available
A Unified Strategy for Multilingual Grammatical Error Correction with Pre-trained Cross-Lingual Language Model	Jan 26, 2022	Grammatical Error CorrectionLanguage Modeling	CodeCode Available
Semantic Text Analysis for Detection of Compromised Accounts on Social Networks	Apr 19, 2018	Language ModelingLanguage Modelling	CodeCode Available
Identifying Conspiracy Theories News based on Event Relation Graph	Oct 28, 2023	Graph AttentionGraph Embedding	CodeCode Available

Show:10 25 50

← PrevPage 352 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified