Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17401–17450 of 17610 papers

Title	Date	Tasks	Status
Domain-Adaptive Continued Pre-Training of Small Language Models	Apr 13, 2025	Domain AdaptationHellaSwag	—Unverified
Domain-aware Neural Language Models for Speech Recognition	Jan 5, 2021	Domain Adaptationdomain classification	—Unverified
Domain-Hierarchy Adaptation via Chain of Iterative Reasoning for Few-shot Hierarchical Text Classification	Jul 12, 2024	few-shot-htcFew-shot HTC	—Unverified
Domain Incremental Lifelong Learning in an Open World	May 11, 2023	Language ModellingLifelong learning	—Unverified
Domain Knowledge Distillation from Large Language Model: An Empirical Study in the Autonomous Driving Domain	Jul 17, 2023	Autonomous DrivingKnowledge Distillation	—Unverified
Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating Holistic Domain Knowledge of Large Language Model--A Preliminary Release	Apr 23, 2023	Language ModelingLanguage Modelling	—Unverified
Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems	Dec 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Domain Regeneration: How well do LLMs match syntactic properties of text domains?	May 12, 2025	Language ModelingLanguage Modelling	—Unverified
Domain-slot Relationship Modeling using a Pre-trained Language Encoder for Multi-Domain Dialogue State Tracking	Jan 1, 2021	Dialogue State TrackingLanguage Modeling	—Unverified
Domain-Specific Japanese ELECTRA Model Using a Small Corpus	Sep 1, 2021	ArticlesComputational Efficiency	—Unverified
Domain-specific knowledge distillation yields smaller and better models for conversational commerce	May 1, 2022	Knowledge DistillationLanguage Modeling	—Unverified
Domain Transfer based Data Augmentation for Neural Query Translation	Dec 1, 2020	Cross-Lingual Information RetrievalData Augmentation	—Unverified
Do Neural Nets Learn Statistical Laws behind Natural Language?	Jul 16, 2017	Deep LearningLanguage Modeling	—Unverified
Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling	Jan 25, 2024	Causal Language ModelingDecoder	—Unverified
Do Not Fire the Linguist: Grammatical Profiles Help Language Models Detect Semantic Change	Apr 12, 2022	Change DetectionLanguage Modeling	—Unverified
"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation	Jun 4, 2025	Language ModelingLanguage Modelling	—Unverified
Don't Forget About Pronouns: Removing Gender Bias in Language Models Without Losing Factual Gender Information	Jun 21, 2022	Language ModelingLanguage Modelling	—Unverified
Don’t Forget About Pronouns: Removing Gender Bias in Language Models without Losing Factual Gender Information	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified
Don’t Forget About Pronouns: Removing Gender Bias in Language Models Without Losing Factual Gender Information	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Don't Forget It! Conditional Sparse Autoencoder Clamping Works for Unlearning	Mar 14, 2025	Language ModelingLanguage Modelling	—Unverified
Don't Forget to Connect! Improving RAG with Graph-based Reranking	May 28, 2024	Abstract Meaning RepresentationLanguage Modeling	—Unverified
Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration	Feb 25, 2024	Language ModelingLanguage Modelling	—Unverified
Don't Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning	Jun 17, 2025	Language ModelingLanguage Modelling	—Unverified
Don't Throw Those Morphological Analyzers Away Just Yet: Neural Morphological Disambiguation for Arabic	Sep 1, 2017	Feature EngineeringLanguage Modeling	—Unverified
Do People Prefer "Natural" code?	Oct 8, 2019	Language ModelingLanguage Modelling	—Unverified
Doppelgänger's Watch: A Split Objective Approach to Large Language Models	Sep 9, 2024	Language ModelingLanguage Modelling	—Unverified
DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment	Jul 1, 2023	Language ModelingLanguage Modelling	—Unverified
DORIC : Domain Robust Fine-Tuning for Open Intent Clustering through Dependency Parsing	Mar 17, 2023	ClusteringDependency Parsing	—Unverified
Do sequence-to-sequence VAEs learn global features of sentences?	Apr 16, 2020	Language ModelingLanguage Modelling	—Unverified
Do Sparse Autoencoders Generalize? A Case Study of Answerability	Feb 27, 2025	Language ModelingLanguage Modelling	—Unverified
Do Transformer Networks Improve the Discovery of Rules from Text?	Jun 1, 2022	Language ModelingLanguage Modelling	—Unverified
Do Transformers Need Deep Long-Range Memory?	Jul 1, 2020	Deep AttentionLanguage Modelling	—Unverified
Do Transformers Parse while Predicting the Masked Word?	Mar 14, 2023	Constituency ParsingLanguage Modeling	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Doubly Sparse: Sparse Mixture of Sparse Experts for Efficient Softmax Inference	Jan 30, 2019	image-classificationImage Classification	—Unverified
On the Need of Cross Validation for Discourse Relation Classification	Apr 1, 2017	ClassificationGeneral Classification	—Unverified
Do You Trust ChatGPT? -- Perceived Credibility of Human and AI-Generated Content	Sep 5, 2023	AttributeLanguage Modeling	—Unverified
DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing	Sep 2, 2024	Image GenerationLanguage Modelling	—Unverified
DP-Parse: Finding Word Boundaries from Raw Speech with an Instance Lexicon	Jun 22, 2022	Language ModelingLanguage Modelling	—Unverified
Enhancing Jailbreak Attacks with Diversity Guidance	Mar 1, 2024	DiversityLanguage Modelling	—Unverified
DPP-Net: Device-aware Progressive Search for Pareto-optimal Neural Architectures	Jun 21, 2018	GPUimage-classification	—Unverified
DPRK-BERT: The Supreme Language Model	Dec 1, 2021	Language ModelingLanguage Modelling	—Unverified
Drafting Event Schemas using Language Models	May 24, 2023	DescriptiveDiversity	—Unverified
DRAG: Director-Generator Language Modelling Framework for Non-Parallel Author Stylized Rewriting	Jan 28, 2021	DenoisingLanguage Modelling	—Unverified
D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions	Jul 2, 2024	DiagnosticInstruction Following	—Unverified
BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining	Jan 29, 2024	DecoderLanguage Modeling	—Unverified
DR-Encoder: Encode Low-rank Gradients with Random Prior for Large Language Models Differentially Privately	Dec 22, 2024	Language ModelingLanguage Modelling	—Unverified
DReSD: Dense Retrieval for Speculative Decoding	Feb 21, 2025	Language ModelingLanguage Modelling	—Unverified
DressCode: Autoregressively Sewing and Generating Garments from Text Guidance	Jan 29, 2024	Language ModellingLarge Language Model	—Unverified
DReSS: Data-driven Regularized Structured Streamlining for Large Language Models	Jan 29, 2025	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 349 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified