Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5051–5100 of 17610 papers

Title	Date	Tasks	Status
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models	Oct 10, 2024	Image GenerationLanguage Modeling	—Unverified
Dick-Preston and Morbo at SemEval-2019 Task 4: Transfer Learning for Hyperpartisan News Detection	Jun 1, 2019	ArticlesClassification	—Unverified
DictBERT: Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning	Aug 1, 2022	Contrastive LearningLanguage Modeling	—Unverified
DictFormer: Tiny Transformer with Shared Dictionary	Sep 29, 2021	Abstractive Text SummarizationLanguage Modeling	—Unverified
DICT-MLM: Improved Multilingual Pre-Training using Bilingual Dictionaries	Oct 23, 2020	Language ModelingLanguage Modelling	—Unverified
DIDS: Domain Impact-aware Data Sampling for Large Language Model Training	Apr 17, 2025	Dimensionality ReductionLanguage Modeling	—Unverified
DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models	Feb 27, 2025	DiversityLanguage Modeling	—Unverified
Differentiable Neural Architecture Search with Morphism-based Transformable Backbone Architectures	Jun 14, 2021	Language ModelingLanguage Modelling	—Unverified
Differentiable Retrieval Augmentation via Generative Language Modeling for E-commerce Query Intent Classification	Aug 18, 2023	intent-classificationIntent Classification	—Unverified
Differentiable Window for Dynamic Local Attention	Jun 24, 2020	Language ModelingLanguage Modelling	—Unverified
Differentially Private Decoding in Large Language Models	May 26, 2022	Language ModelingLanguage Modelling	—Unverified
Differentially Private Distributed Learning for Language Modeling Tasks	Dec 20, 2017	General KnowledgeLanguage Modeling	—Unverified
Differentially Private Language Models Benefit from Public Pre-training	Sep 13, 2020	Language ModelingLanguage Modelling	—Unverified
Differentially Private Language Models for Secure Data Sharing	Oct 25, 2022	Language Modelling	—Unverified
Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning	Dec 29, 2023	Federated LearningLanguage Modeling	—Unverified
Differentially Private Meta-Learning	Sep 12, 2019	Federated LearningFew-Shot Learning	—Unverified
Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning	Feb 12, 2024	Language ModelingLanguage Modelling	—Unverified
Different Strokes for Different Folks: Investigating Appropriate Further Pre-training Approaches for Diverse Dialogue Tasks	Sep 14, 2021	Domain AdaptationLanguage Modelling	—Unverified
Different Tokenization Schemes Lead to Comparable Performance in Spanish Number Agreement	Mar 20, 2024	Language ModelingLanguage Modelling	—Unverified
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model	May 12, 2024	Language ModelingLanguage Modelling	—Unverified
Difficulty-Focused Contrastive Learning for Knowledge Tracing with a Large Language Model-Based Difficulty Prediction	Dec 19, 2023	Contrastive LearningKnowledge Tracing	—Unverified
Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration	Jul 4, 2024	DecoderImage Restoration	—Unverified
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation	Dec 10, 2024	Image GenerationLanguage Modelling	—Unverified
DiffusEmp: A Diffusion Model-Based Framework with Multi-Grained Control for Empathetic Response Generation	Jun 2, 2023	AttributeDiversity	—Unverified
Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning	Jul 30, 2024	Efficient ExplorationLanguage Modeling	—Unverified
Diffusion based Text-to-Music Generation with Global and Local Text based Conditioning	Jan 24, 2025	FADLanguage Modeling	—Unverified
DiffusionBlocks: Blockwise Training for Generative Models via Score-Based Diffusion	Jun 17, 2025	DenoisingImage Generation	—Unverified
Diffusion Models for Open-Vocabulary Segmentation	Jun 15, 2023	Language ModellingSegmentation	—Unverified
Diffusion on language model encodings for protein sequence generation	Mar 6, 2024	DiversityLanguage Modeling	—Unverified
Diffusion Self-Distillation for Zero-Shot Customized Image Generation	Nov 27, 2024	Image GenerationLanguage Modeling	—Unverified
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective	May 21, 2025	Instruction FollowingLanguage Modeling	—Unverified
DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving	May 26, 2025	Autonomous DrivingDiversity	—Unverified
Diformer: Directional Transformer for Neural Machine Translation	Dec 22, 2021	Language ModelingLanguage Modelling	—Unverified
Digger: Detecting Copyright Content Mis-usage in Large Language Model Training	Jan 1, 2024	Language ModelingLanguage Modelling	—Unverified
Digital Avatars: Framework Development and Their Evaluation	Aug 7, 2024	Language ModelingLanguage Modelling	—Unverified
Digital Business Model Analysis Using a Large Language Model	Jun 9, 2024	Language ModelingLanguage Modelling	—Unverified
Digital Twin Buildings: 3D Modeling, GIS Integration, and Visual Descriptions Using Gaussian Splatting, ChatGPT/Deepseek, and Google Maps Platform	Feb 9, 2025	Decision MakingLanguage Modeling	—Unverified
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention	Oct 28, 2022	Image CaptioningLanguage Modeling	—Unverified
DINT Transformer	Jan 29, 2025	Information RetrievalLanguage Modeling	—Unverified
DiPaCo: Distributed Path Composition	Mar 15, 2024	Language ModellingModel Compression	—Unverified
Dipper: Diversity in Prompts for Producing Large Language Model Ensembles in Reasoning tasks	Dec 12, 2024	DiversityGPU	—Unverified
DiPT: Enhancing LLM reasoning through diversified perspective-taking	Sep 10, 2024	Language ModelingLanguage Modelling	—Unverified
dIR -- Discrete Information Retrieval: Conversational Search over Unstructured (and Structured) Data with Large Language Models	Dec 20, 2023	Conversational SearchInformation Retrieval	—Unverified
Direct Acoustics-to-Word Models for English Conversational Speech Recognition	Mar 22, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Direct Fact Retrieval from Knowledge Graphs without Entity Linking	May 21, 2023	Entity DisambiguationEntity Linking	—Unverified
Direct Language Model Alignment from Online AI Feedback	Feb 7, 2024	Language ModelingLanguage Modelling	—Unverified
DIRECTOR: Generator-Classifiers For Supervised Language Modeling	Jun 15, 2022	Language ModelingLanguage Modelling	—Unverified
DirectorLLM for Human-Centric Video Generation	Dec 19, 2024	Language ModelingLanguage Modelling	—Unverified
DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization	Oct 22, 2024	De-identificationLanguage Modeling	—Unverified
Disaggregating Hops: Can We Guide a Multi-Hop Reasoning Language Model to Incrementally Learn at each Hop?	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 102 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified