Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5351–5400 of 17610 papers

Title	Date	Tasks	Status
LaMAGIC2: Advanced Circuit Formulations for Language Model-Based Analog Topology Generation	Jun 11, 2025	Language ModelingLanguage Modelling	—Unverified
Discrete Audio Tokens: More Than a Survey!	Jun 12, 2025	Language ModelingLanguage Modelling	—Unverified
DanceChat: Large Language Model-Guided Music-to-Dance Generation	Jun 12, 2025	Language ModelingLanguage Modelling	—Unverified
Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework	Jun 12, 2025	Adversarial AttackDiversity	—Unverified
Tesseract: Parallelize the Tensor Parallelism Efficiently	May 30, 2021	GPULanguage Modelling	—Unverified
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models	Sep 28, 2024	DiagnosticLanguage Modeling	—Unverified
3d human motion generation from the text via gesture action classification and the autoregressive model	Nov 18, 2022	Action ClassificationAction Recognition	—Unverified
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model	May 28, 2025	Language ModelingLanguage Modelling	—Unverified
3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding	Jun 14, 2024	Language ModelingLanguage Modelling	—Unverified
3D-VLA: A 3D Vision-Language-Action Generative World Model	Mar 14, 2024	Language ModellingLarge Language Model	—Unverified
6VecLM: Language Modeling in Vector Space for IPv6 Target Generation	Aug 5, 2020	Language ModelingLanguage Modelling	—Unverified
A 23 MW data centre is all you need	Mar 31, 2022	AllBoard Games	—Unverified
A3-108 Machine Translation System for Similar Language Translation Shared Task 2020	Nov 1, 2020	Language ModelingLanguage Modelling	—Unverified
A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions	Oct 5, 2023	Language ModelingLanguage Modelling	—Unverified
AAVENUE: Detecting LLM Biases on NLU Tasks in AAVE via a Novel Benchmark	Aug 27, 2024	Language ModelingLanguage Modelling	—Unverified
A Bag of Tricks for Dialogue Summarization	Sep 16, 2021	ArticlesLanguage Modeling	—Unverified
A Baseline for Self-state Identification and Classification in Mental Health Data: CLPsych 2025 Task	Apr 18, 2025	AttributeBinary Classification	—Unverified
A Bayesian approach for prompt optimization in pre-trained language models	Dec 1, 2023	Bayesian OptimizationCombinatorial Optimization	—Unverified
A Bayesian Model for Generative Transition-based Dependency Parsing	Jun 13, 2015	Dependency ParsingLanguage Modeling	—Unverified
ABC: Attention with Bounded-memory Control	Oct 6, 2021	Language ModelingLanguage Modelling	—Unverified
Abductive Reasoning with the GPT-4 Language Model: Case studies from criminal investigation, medical practice, scientific research	Jul 17, 2023	Language ModelingLanguage Modelling	—Unverified
A Benchmark for Lease Contract Review	Oct 20, 2020	Language ModelingLanguage Modelling	—Unverified
A BERT-based Deep Learning Approach for Reputation Analysis in Social Media	Oct 23, 2022	Language ModelingLanguage Modelling	—Unverified
A BERT-based Unsupervised Grammatical Error Correction Framework	Mar 30, 2023	Grammatical Error CorrectionLanguage Modeling	—Unverified
A Binarized Neural Network Joint Model for Machine Translation	Sep 1, 2015	Language ModellingMachine Translation	—Unverified
A bi-objective ε-constrained framework for quality-cost optimization in language model ensembles	Dec 26, 2023	Language ModelingLanguage Modelling	—Unverified
A bird's eye view on coherence, and a worm's eye view on cohesion	Sep 27, 2018	Language ModelingLanguage Modelling	—Unverified
Towards Coherent and Cohesive Long-form Text Generation	Nov 1, 2018	FormLanguage Modeling	—Unverified
A Bit of Progress in Language Modeling	Aug 9, 2001	ClusteringLanguage Modeling	—Unverified
A Block Metropolis-Hastings Sampler for Controllable Energy-based Text Generation	Dec 7, 2023	Language ModelingLanguage Modelling	—Unverified
A Brief Report on LawGPT 1.0: A Virtual Legal Assistant Based on GPT-3	Feb 11, 2023	Language ModelingLanguage Modelling	—Unverified
Abrupt Learning in Transformers: A Case Study on Matrix Completion	Oct 29, 2024	Language ModelingLanguage Modelling	—Unverified
Absformer: Transformer-based Model for Unsupervised Multi-Document Abstractive Summarization	Jun 7, 2023	Abstractive Text SummarizationDecoder	—Unverified
Abstractive Sentence Summarization with Attentive Recurrent Neural Networks	Jun 1, 2016	Language ModelingLanguage Modelling	—Unverified
Abstractive Text Summarization for Contemporary Sanskrit Prose: Issues and Challenges	Jan 3, 2025	Abstractive Text SummarizationLanguage Modeling	—Unverified
Unicode Normalization and Grapheme Parsing of Indic Languages	May 11, 2023	Language Modelling	—Unverified
Abu-MaTran at WMT 2016 Translation Task: Deep Learning, Morphological Segmentation and Tuning on Character Sequences	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
A-CAP: Anticipation Captioning with Commonsense Knowledge	Apr 13, 2023	Image CaptioningLanguage Modeling	—Unverified
A Career Interview Dialogue System using Large Language Model-based Dynamic Slot Generation	Dec 22, 2024	Language ModelingLanguage Modelling	—Unverified
A Careful Examination of Large Language Model Performance on Grade School Arithmetic	May 1, 2024	GSM8KLanguage Modeling	—Unverified
A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models	Mar 11, 2025	Decision Makingglobal-optimization	—Unverified
A Case-Based Persistent Memory for a Large Language Model	Oct 13, 2023	Language ModelingLanguage Modelling	—Unverified
A Case Study in Bootstrapping Ontology Graphs from Textbooks	Jun 22, 2021	Knowledge GraphsLanguage Modeling	—Unverified
A Case Study in Engineering a Conversational Programming Assistant's Persona	Jan 13, 2023	ChatbotLanguage Modeling	—Unverified
Accelerated Preference Optimization for Large Language Model Alignment	Oct 8, 2024	Language ModelingLanguage Modelling	—Unverified
Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking	May 30, 2025	Language ModelingLanguage Modelling	—Unverified
Accelerated Test-Time Scaling with Model-Free Speculative Sampling	Jun 5, 2025	Language ModelingLanguage Modelling	—Unverified
Accelerating Clinical Evidence Synthesis with Large Language Models	Jun 25, 2024	Language Modelling	—Unverified
Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion	May 27, 2025	DenoisingLanguage Modeling	—Unverified
Accelerating evolutionary exploration through language model-based transfer learning	Jun 7, 2024	Evolutionary AlgorithmsLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 108 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified