Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17201–17250 of 17610 papers

Title	Date	Tasks	Status
Continuous Language Model Interpolation for Dynamic and Controllable Text Generation	Apr 10, 2024	Language ModelingLanguage Modelling	CodeCode Available
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation	May 10, 2024	Instruction FollowingLanguage Modeling	CodeCode Available
EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset	Oct 17, 2023	Language Modelling	CodeCode Available
Generative Language Models on Nucleotide Sequences of Human Genes	Jul 20, 2023	Language Modelling	CodeCode Available
Exp4Fuse: A Rank Fusion Framework for Enhanced Sparse Retrieval using Large Language Model-based Query Expansion	Jun 5, 2025	Information RetrievalLanguage Modeling	CodeCode Available
How to Protect Copyright Data in Optimization of Large Language Models?	Aug 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
TextKD-GAN: Text Generation using KnowledgeDistillation and Generative Adversarial Networks	Apr 23, 2019	Image GenerationKnowledge Distillation	CodeCode Available
Biased Importance Sampling for Deep Neural Network Training	May 31, 2017	image-classificationImage Classification	CodeCode Available
Improving Interpersonal Communication by Simulating Audiences with Language Models	Nov 1, 2023	Language ModellingLarge Language Model	CodeCode Available
Expanding the Vocabulary of BERT for Knowledge Base Construction	Oct 12, 2023	Knowledge Base ConstructionKnowledge Base Population	CodeCode Available
Expansion via Prediction of Importance with Contextualization	Apr 29, 2020	Language ModelingLanguage Modelling	CodeCode Available
Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation	Jun 26, 2025	Language ModelingLanguage Modelling	CodeCode Available
Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression	Jul 6, 2024	Language ModelingLanguage Modelling	CodeCode Available
An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets	Mar 22, 2024	Language ModelingLanguage Modelling	CodeCode Available
Beyond Ontology in Dialogue State Tracking for Goal-Oriented Chatbot	Oct 30, 2024	ChatbotDialogue State Tracking	CodeCode Available
Beyond Language: Learning Commonsense from Images for Reasoning	Oct 10, 2020	Language ModelingLanguage Modelling	CodeCode Available
Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization	Feb 25, 2025	Language ModelingLanguage Modelling	CodeCode Available
Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence	May 8, 2022	Language ModelingLanguage Modelling	CodeCode Available
Continual Learning of Recurrent Neural Networks by Locally Aligning Distributed Representations	Oct 17, 2018	Continual LearningLanguage Modeling	CodeCode Available
Continual and Multi-Task Architecture Search	Jun 12, 2019	Continual LearningGeneral Classification	CodeCode Available
Continual adaptation for efficient machine communication	Nov 22, 2019	Continual LearningLanguage Modeling	CodeCode Available
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration	Jun 3, 2024	Language ModellingLarge Language Model	CodeCode Available
How to Unleash the Power of Large Language Models for Few-shot Relation Extraction?	May 2, 2023	In-Context LearningLanguage Modeling	CodeCode Available
Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable?	Jan 24, 2024	Interpretable Machine LearningLanguage Modelling	CodeCode Available
Explainable and Discourse Topic-aware Neural Language Understanding	Jun 18, 2020	Document ClassificationLanguage Modeling	CodeCode Available
Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-Tuning	Sep 20, 2024	Language ModelingLanguage Modelling	CodeCode Available
How transformers learn structured data: insights from hierarchical filtering	Aug 27, 2024	Language ModelingLanguage Modelling	CodeCode Available
Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching	Apr 26, 2020	ClusteringForm	CodeCode Available
An Exploration of Softmax Alternatives Belonging to the Spherical Loss Family	Nov 16, 2015	Language ModelingLanguage Modelling	CodeCode Available
Contextual String Embeddings for Sequence Labeling	Aug 1, 2018	ChunkingLanguage Modeling	CodeCode Available
Improving Language Generation with Sentence Coherence Objective	Sep 7, 2020	DiversityLanguage Modeling	CodeCode Available
Better Long-Range Dependency By Bootstrapping A Mutual Information Regularizer	May 28, 2019	General ClassificationInductive Bias	CodeCode Available
An Evalutation of Programming Language Models' performance on Software Defect Detection	Sep 10, 2019	Defect DetectionLanguage Modeling	CodeCode Available
Generative Relevance Feedback and Convergence of Adaptive Re-Ranking: University of Glasgow Terrier Team at TREC DL 2023	May 2, 2024	Language ModelingLanguage Modelling	CodeCode Available
Explainable Verbal Reasoner Plus (EVR+): A Natural Language Reasoning Framework that Supports Diverse Compositional Reasoning	Apr 28, 2023	Language ModelingLanguage Modelling	CodeCode Available
A Co-Attentive Cross-Lingual Neural Model for Dialogue Breakdown Detection	Dec 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
Better Language Model with Hypernym Class Prediction	Mar 21, 2022	Language ModelingLanguage Modelling	CodeCode Available
Dial-MAE: ConTextual Masked Auto-Encoder for Retrieval-based Dialogue Systems	Jun 7, 2023	Conversational Response SelectionDecoder	CodeCode Available
Investigating the translation capabilities of Large Language Models trained on parallel data only	Jun 13, 2024	DecoderLanguage Modeling	CodeCode Available
Explaining Context Length Scaling and Bounds for Language Models	Feb 3, 2025	Language ModelingLanguage Modelling	CodeCode Available
Contextualized Word Representations for Reading Comprehension	Dec 10, 2017	Language ModelingLanguage Modelling	CodeCode Available
360^REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System	Apr 8, 2024	Language ModelingLanguage Modelling	CodeCode Available
Generative Social Choice	Sep 3, 2023	ChatbotLanguage Modeling	CodeCode Available
Explaining Natural Language Processing Classifiers with Occlusion and Language Modeling	Jan 28, 2021	Language ModelingLanguage Modelling	CodeCode Available
How would Stance Detection Techniques Evolve after the Launch of ChatGPT?	Dec 30, 2022	Language ModellingStance Detection	CodeCode Available
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization	Aug 6, 2024	Knowledge DistillationLanguage Modeling	CodeCode Available
CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural Topic Modeling	May 16, 2023	Document ClassificationLanguage Modelling	CodeCode Available
A Latent Variable Recurrent Neural Network for Discourse Relation Language Models	Mar 7, 2016	ClassificationDialog Act Classification	CodeCode Available
Explanation Graph Generation via Generative Pre-training over Synthetic Graphs	Jun 1, 2023	Graph GenerationLanguage Modelling	CodeCode Available
Generative Text Modeling through Short Run Inference	May 27, 2021	Language Modelling	CodeCode Available

Show:10 25 50

← PrevPage 345 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified