Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5101–5150 of 17610 papers

Title	Date	Tasks	Status
Disambiguating Symbolic Expressions in Informal Documents	Jan 25, 2021	Language ModelingLanguage Modelling	—Unverified
Disaster Tweets Classification using BERT-Based Language Model	Jan 31, 2022	ClassificationLanguage Modeling	—Unverified
Discourse-Aware Soft Prompting for Text Generation	Dec 10, 2021	BlockingConditional Text Generation	—Unverified
Discourse-Aware Prompt Design for Text Generation	Jan 16, 2022	BlockingConditional Text Generation	—Unverified
Discovering Factions in the Computational Linguistics Community	Jul 1, 2012	Language Modelling	—Unverified
Discovering Financial Hypernyms by Prompting Masked Language Models	Jun 1, 2022	Domain AdaptationLanguage Modeling	—Unverified
Discovering Significant Topics from Legal Decisions with Selective Inference	Jan 2, 2024	Language ModelingLanguage Modelling	—Unverified
Discovering Syntactic Interaction Clues for Human-Object Interaction Detection	Jan 1, 2024	DecoderHuman-Object Interaction Detection	—Unverified
Discovering Useful Sentence Representations from Large Pretrained Language Models	Aug 20, 2020	DecoderLanguage Modeling	—Unverified
DiscreTalk: Text-to-Speech as a Machine Translation Problem	May 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Discrete Audio Representation as an Alternative to Mel-Spectrograms for Speaker and Speech Recognition	Sep 19, 2023	Language ModelingLanguage Modelling	—Unverified
Discrete Diffusion Language Model for Long Text Summarization	Jun 25, 2024	Abstractive Text SummarizationDecoder	—Unverified
Discrete Modeling via Boundary Conditional Diffusion Processes	Oct 29, 2024	Image GenerationLanguage Modeling	—Unverified
Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing	Jun 4, 2024	DecoderLanguage Modeling	—Unverified
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding	Jun 13, 2024	Instruction FollowingLanguage Modeling	—Unverified
Discrete Variational Attention Models for Language Generation	Apr 21, 2020	Language ModellingText Generation	—Unverified
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck	Apr 22, 2020	DecoderLanguage Modeling	—Unverified
Discriminating between Mandarin Chinese and Swiss-German varieties using adaptive language models	Jun 1, 2019	Dialect IdentificationLanguage Identification	—Unverified
Discriminating Non-Native English with 350 Words	Jun 1, 2013	Language AcquisitionLanguage Identification	—Unverified
Discriminative Language Model as Semantic Consistency Scorer for Prompt-based Few-Shot Text Classification	Oct 23, 2022	Few-Shot Text ClassificationLanguage Modeling	—Unverified
Discriminative protein sequence modelling with Latent Space Diffusion	Mar 24, 2025	DenoisingLanguage Modeling	—Unverified
Discriminative Segmental Cascades for Feature-Rich Phone Recognition	Jul 22, 2015	Language ModelingLanguage Modelling	—Unverified
Discriminative training of RNNLMs with the average word error criterion	Nov 6, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions	Sep 20, 2023	Language ModellingLarge Language Model	—Unverified
Disease Entity Recognition and Normalization is Improved with Large Language Model Derived Synthetic Normalized Mentions	Oct 10, 2024	Data AugmentationKnowledge Graphs	—Unverified
Disentangled Prompt Representation for Domain Generalization	Jan 1, 2024	Domain GeneralizationLanguage Modelling	—Unverified
Disentangling Homophemes in Lip Reading using Perplexity Analysis	Nov 28, 2020	Language ModelingLanguage Modelling	—Unverified
Disentangling Knowledge Representations for Large Language Model Editing	May 24, 2025	Disentanglementknowledge editing	—Unverified
Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning	Dec 19, 2024	DisentanglementLanguage Modeling	—Unverified
Disfluency Detection using a Noisy Channel Model and a Deep Neural Language Model	Aug 28, 2018	Language ModelingLanguage Modelling	—Unverified
Disfluency Detection Using Multi-step Stacked Learning	Jun 1, 2013	Language Modelling	—Unverified
Disney at IEST 2018: Predicting Emotions using an Ensemble	Oct 1, 2018	Emotion ClassificationLanguage Modeling	—Unverified
Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion	May 29, 2025	Language ModelingLanguage Modelling	—Unverified
Distant-supervised Language Model for Detecting Emotional Upsurge on Twitter	Oct 1, 2015	Language ModelingLanguage Modelling	—Unverified
Distill and Replay for Continual Language Learning	Dec 1, 2020	Language ModellingNatural Language Understanding	—Unverified
Distillation of Weighted Automata from Recurrent Neural Networks using a Spectral Approach	Sep 28, 2020	Knowledge DistillationLanguage Modelling	—Unverified
Distillation Strategies for Discriminative Speech Recognition Rescoring	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified
Improving Word Embedding Factorization for Compression Using Distilled Nonlinear Neural Decomposition	Oct 2, 2019	Knowledge DistillationLanguage Modeling	—Unverified
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs	Apr 11, 2024	Language Modelling	—Unverified
Distilling Event Sequence Knowledge From Large Language Models	Jan 14, 2024	Language ModelingLanguage Modelling	—Unverified
Distilling Knowledge from Pre-trained Language Models via Text Smoothing	May 8, 2020	Knowledge DistillationLanguage Modeling	—Unverified
Distilling Relation Embeddings from Pretrained Language Models	Nov 1, 2021	Knowledge GraphsLanguage Modeling	—Unverified
Distilling Relation Embeddings from Pre-trained Language Models	Sep 21, 2021	Knowledge GraphsLanguage Modeling	—Unverified
Distilling the Knowledge of BERT for CTC-based ASR	Sep 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Distilling Vision-Language Models on Millions of Videos	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified
DistillSpec: Improving Speculative Decoding via Knowledge Distillation	Oct 12, 2023	Knowledge DistillationLanguage Modelling	—Unverified
Distil-xLSTM: Learning Attention Mechanisms through Recurrent Structures	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
Distinguishing Human Generated Text From ChatGPT Generated Text Using Machine Learning	May 26, 2023	Language ModelingLanguage Modelling	—Unverified
Distortion-free Watermarks are not Truly Distortion-free under Watermark Key Collisions	Jun 2, 2024	Language ModelingLanguage Modelling	—Unverified
Distortion Model Considering Rich Context for Statistical Machine Translation	Aug 1, 2013	Language ModellingMachine Translation	—Unverified

Show:10 25 50

← PrevPage 103 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified