Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10251–10300 of 17610 papers

Title	Date	Tasks	Status
PhyloTransformer: A Discriminative Model for Mutation Prediction Based on a Multi-head Self-attention Mechanism	Nov 3, 2021	Language Modelling	—Unverified
Physically Grounded Vision-Language Models for Robotic Manipulation	Sep 5, 2023	Image CaptioningLanguage Modelling	—Unverified
Physics of Language Models: Part 3.2, Knowledge Manipulation	Sep 25, 2023	AttributeLanguage Modelling	—Unverified
Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders	Jan 6, 2025	DecoderLanguage Modeling	—Unverified
PIC a Different Word: A Simple Model for Lexical Substitution in Context	Jun 1, 2016	Language ModelingLanguage Modelling	—Unverified
Picking Pearl From Seabed: Extracting Artefacts from Noisy Issue Triaging Collaborative Conversations for Hybrid Cloud Services	May 31, 2021	Language ModelingLanguage Modelling	—Unverified
PickLLM: Context-Aware RL-Assisted Large Language Model Routing	Dec 12, 2024	Language ModelingLanguage Modelling	—Unverified
PIDformer: Transformer Meets Control Theory	Feb 25, 2024	Image SegmentationLanguage Modeling	—Unverified
PIE-QG: Paraphrased Information Extraction for Unsupervised Question Generation from Small Corpora	Jan 3, 2023	Language ModelingLanguage Modelling	—Unverified
PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D World	Jun 1, 2021	Language ModelingLanguage Modelling	—Unverified
Piloting Copilot, Codex, and StarCoder2: Hot Temperature, Cold Prompts, or Black Magic?	Oct 26, 2022	HumanEvalLanguage Modelling	—Unverified
PIN: A Novel Parallel Interactive Network for Spoken Language Understanding	Sep 28, 2020	Intent DetectionLanguage Modelling	—Unverified
PINGAN Omini-Sinitic at SemEval-2021 Task 4:Reading Comprehension of Abstract Meaning	Aug 1, 2021	DenoisingLanguage Modeling	—Unverified
PingAnTech at SMM4H task1: Multiple pre-trained model approaches for Adverse Drug Reactions	Oct 1, 2022	Language ModelingLanguage Modelling	—Unverified
Pinyin-bert: A new solution to Chinese pinyin to character conversion task	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding	May 2, 2025	Code GenerationLanguage Modeling	—Unverified
Mind the Gap: Assessing Temporal Generalization in Neural Language Models	Feb 3, 2021	Language Model EvaluationLanguage Modeling	—Unverified
Pivotal Role of Language Modeling in Recommender Systems: Enriching Task-specific and Task-agnostic Representation Learning	Dec 7, 2022	Language ModelingLanguage Modelling	—Unverified
Pivot Based Language Modeling for Improved Neural Domain Adaptation	Jun 1, 2018	Domain AdaptationLanguage Modeling	—Unverified
PIXAR: Auto-Regressive Language Modeling in Pixel Space	Jan 6, 2024	DecoderLAMBADA	—Unverified
Pixel-Aligned Language Model	Jan 1, 2024	Language ModelingLanguage Modelling	—Unverified
Pixel Aligned Language Models	Dec 14, 2023	Language ModelingLanguage Modelling	—Unverified
Pixels and Predictions: Potential of GPT-4V in Meteorological Imagery Analysis and Forecast Communication	Apr 22, 2024	Language ModelingLanguage Modelling	—Unverified
PJAIT Systems for the IWSLT 2015 Evaluation Campaign Enhanced by Comparable Corpora	Dec 5, 2015	Domain AdaptationLanguage Modeling	—Unverified
PJAIT Systems for the WMT 2016	Aug 1, 2016	Domain AdaptationLanguage Modeling	—Unverified
PJIIT's systems for WMT 2017 Conference	Sep 1, 2017	Domain AdaptationLanguage Modeling	—Unverified
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs	Jun 5, 2024	Knowledge DistillationLanguage Modeling	—Unverified
PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency	Oct 10, 2024	Language ModelingLanguage Modelling	—Unverified
Plan ahead: Self-Supervised Text Planning for Paragraph Completion Task	Oct 11, 2020	Language ModelingLanguage Modelling	—Unverified
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning	May 22, 2025	Language ModelingLanguage Modelling	—Unverified
PlanFitting: Personalized Exercise Planning with Large Language Model-driven Conversational Agent	Sep 22, 2023	Language ModelingLanguage Modelling	—Unverified
PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval	Feb 29, 2024	Language ModelingLanguage Modelling	—Unverified
Planning with Diffusion Models for Target-Oriented Dialogue Systems	Apr 23, 2025	Language ModelingLanguage Modelling	—Unverified
Planning with Large Language Models for Code Generation	Mar 9, 2023	Code GenerationLanguage Modelling	—Unverified
CAPE: Corrective Actions from Precondition Errors using Large Language Models	Nov 17, 2022	Common Sense ReasoningLanguage Modeling	—Unverified
Planning with Logical Graph-based Language Model for Instruction Generation	Aug 26, 2023	Language ModelingLanguage Modelling	—Unverified
Planning with Sequence Models through Iterative Energy Minimization	Mar 28, 2023	Language ModelingLanguage Modelling	—Unverified
Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching	Jan 29, 2025	Language ModelingLanguage Modelling	—Unverified
Plan of Thoughts: Heuristic-Guided Problem Solving with Large Language Models	Apr 29, 2024	Language ModelingLanguage Modelling	—Unverified
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling	May 23, 2025	Autonomous DrivingCollision Avoidance	—Unverified
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks	May 2, 2024	Language ModelingLanguage Modelling	—Unverified
PlantBert: An Open Source Language Model for Plant Science	Jun 10, 2025	Domain AdaptationLanguage Modeling	—Unverified
Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment	Feb 17, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
Platform-Independent and Curriculum-Oriented Intelligent Assistant for Higher Education	Feb 15, 2023	Language ModellingScheduling	—Unverified
player2vec: A Language Modeling Approach to Understand Player Behavior in Games	Apr 5, 2024	Language ModelingLanguage Modelling	—Unverified
Player-Driven Emergence in LLM-Driven Game Narrative	Apr 25, 2024	Language ModelingLanguage Modelling	—Unverified
Playing Text-Based Games with Common Sense	Dec 4, 2020	Common Sense ReasoningDeep Reinforcement Learning	—Unverified
Playing the Werewolf game with artificial intelligence for language understanding	Feb 21, 2023	AI AgentLanguage Modelling	—Unverified
Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation	Mar 19, 2021	Language ModelingLanguage Modelling	—Unverified
Play to Your Strengths: Collaborative Intelligence of Conventional Recommender Models and Large Language Models	Mar 25, 2024	Language ModellingLarge Language Model	—Unverified

Show:10 25 50

← PrevPage 206 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified