Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9101–9150 of 17610 papers

Title	Date	Tasks	Status
LARSA22 at Qur’an QA 2022: Text-to-Text Transformer for Finding Answers to Questions from Qur’an	Jun 1, 2022	Language ModelingLanguage Modelling	—Unverified
LASER: Linear Compression in Wireless Distributed Optimization	Oct 19, 2023	Distributed OptimizationLanguage Modeling	—Unverified
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision	Apr 15, 2023	Language ModelingLanguage Modelling	—Unverified
LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation	Apr 21, 2024	Image GenerationImage Morphing	—Unverified
LASP: Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning	Sep 3, 2024	Autonomous VehiclesLanguage Modeling	—Unverified
LAST: Language Model Aware Speech Tokenization	Sep 5, 2024	Language ModelingLanguage Modelling	—Unverified
Latent Lexical Projection in Large Language Models: A Novel Approach to Implicit Representation Refinement	Feb 3, 2025	Computational EfficiencyDiversity	—Unverified
Latent Positional Information is in the Self-Attention Variance of Transformer Language Models Without Positional Embeddings	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
Latent Principle Discovery for Language Model Self-Improvement	May 22, 2025	ClusteringLanguage Modeling	—Unverified
LatentQA: Teaching LLMs to Decode Activations Into Natural Language	Dec 11, 2024	DecoderLanguage Modeling	—Unverified
Latent Structure Models for Natural Language Processing	Jul 1, 2019	Language ModelingLanguage Modelling	—Unverified
Latent-Variable Generative Models for Data-Efficient Text Classification	Oct 1, 2019	ClassificationGeneral Classification	—Unverified
LATEX-GCL: Large Language Models (LLMs)-Based Data Augmentation for Text-Attributed Graph Contrastive Learning	Sep 2, 2024	Contrastive LearningData Augmentation	—Unverified
Lattice-based lightly-supervised acoustic model training	May 30, 2019	Language ModelingLanguage Modelling	—Unverified
Lattice Desegmentation for Statistical Machine Translation	Jun 1, 2014	Language ModellingMachine Translation	—Unverified
Lattice Rescoring for Speech Recognition using Large Scale Distributed Language Models	Dec 1, 2012	Language Modellingspeech-recognition	—Unverified
Latvian National Corpora Collection – Korpuss.lv	Jun 1, 2022	Cultural Vocal Bursts Intensity PredictionLanguage Modelling	—Unverified
LAW: Legal Agentic Workflows for Custody and Fund Services Contracts	Dec 15, 2024	Language ModelingLanguage Modelling	—Unverified
Lawma: The Power of Specialization for Legal Tasks	Jul 23, 2024	Language ModelingLanguage Modelling	—Unverified
LayerCollapse: Adaptive compression of neural networks	Nov 29, 2023	Computational Efficiencyimage-classification	—Unverified
Layer Flexible Adaptive Computational Time	Dec 6, 2018	Language ModelingLanguage Modelling	—Unverified
Layer Flexible Adaptive Computation Time for Recurrent Neural Networks	Sep 25, 2019	Language ModelingLanguage Modelling	—Unverified
Layer Importance and Hallucination Analysis in Large Language Models via Enhanced Activation Variance-Sparsity	Nov 15, 2024	Contrastive LearningHallucination	—Unverified
Layer-wise Adaptive Gradient Norm Penalizing Method for Efficient and Accurate Deep Learning	Mar 18, 2025	Language ModelingLanguage Modelling	—Unverified
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration	Jul 14, 2022	Language ModelingLanguage Modelling	—Unverified
LayoutBERT: Masked Language Layout Model for Object Insertion	Apr 30, 2022	Language Modellingmodel	—Unverified
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding	Mar 21, 2024	document-image-classificationDocument Image Classification	—Unverified
LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding	May 30, 2023	document-image-classificationDocument Image Classification	—Unverified
LayoutXLM vs. GNN: An Empirical Evaluation of Relation Extraction for Documents	May 9, 2022	BenchmarkingGraph Neural Network	—Unverified
LB-KBQA: Large-language-model and BERT based Knowledge-Based Question and Answering System	Feb 5, 2024	DiversityIntent Recognition	—Unverified
LBPE: Long-token-first Tokenization to Improve Large Language Models	Nov 8, 2024	Language ModelingLanguage Modelling	—Unverified
LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models	Mar 27, 2024	Autonomous VehiclesCommon Sense Reasoning	—Unverified
LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering	Jan 29, 2024	Language ModelingLanguage Modelling	—Unverified
LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation	Feb 25, 2025	Image GenerationLanguage Modeling	—Unverified
LD-SDM: Language-Driven Hierarchical Species Distribution Modeling	Dec 13, 2023	Language ModelingLanguage Modelling	—Unverified
LeAD: The LLM Enhanced Planning System Converged with End-to-end Autonomous Driving	Jul 8, 2025	Autonomous DrivingImitation Learning	—Unverified
LeanQuant: Accurate Large Language Model Quantization with Loss-Error-Aware Grid	Jul 14, 2024	GPULanguage Modeling	—Unverified
Lean-STaR: Learning to Interleave Thinking and Proving	Jul 14, 2024	Automated Theorem ProvingLanguage Modeling	—Unverified
LEAP: LLM-Generation of Egocentric Action Programs	Nov 29, 2023	Action RecognitionLanguage Modeling	—Unverified
Learnable Dependency-based Double Graph Structure for Aspect-based Sentiment Analysis	Oct 1, 2022	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers	Feb 3, 2023	image-classificationImage Classification	—Unverified
Learning a High-quality Robotic Wiping Policy Using Systematic Reward Analysis and Visual-Language Model Based Curriculum	Feb 18, 2025	Deep Reinforcement LearningLanguage Modeling	—Unverified
Learning and Evaluating a Differentially Private Pre-trained Language Model	Jun 1, 2021	Language ModelingLanguage Modelling	—Unverified
Learning and Transferring Sparse Contextual Bigrams with Linear Transformers	Oct 30, 2024	Language ModelingLanguage Modelling	—Unverified
Learning and Unlearning of Fabricated Knowledge in Language Models	Oct 29, 2024	Data PoisoningLanguage Modeling	—Unverified
Learning Architectures from an Extended Search Space for Language Modeling	May 6, 2020	ChunkingLanguage Modeling	—Unverified
Learning Articulated Motion Models from Visual and Lingual Signals	Nov 17, 2015	Language ModelingLanguage Modelling	—Unverified
Learning Attentional Mixture of LoRAs for Language Model Continual Learning	Sep 29, 2024	Continual LearningLanguage Modeling	—Unverified
Learning a Word-Level Language Model with Sentence-Level Noise Contrastive Estimation for Contextual Sentence Probability Estimation	Mar 14, 2021	Language ModelingLanguage Modelling	—Unverified
Learning-based Composite Metrics for Improved Caption Evaluation	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 183 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified