Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15501–15550 of 17610 papers

Title	Date	Tasks	Status
Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual Retrieval	Apr 5, 2022	Cross-Lingual TransferLanguage Modelling	CodeCode Available
Parameter-Efficient Language Model Tuning with Active Learning in Low-Resource Settings	May 23, 2023	Active LearningLanguage Modeling	CodeCode Available
Towards Democratized Flood Risk Management: An Advanced AI Assistant Enabled by GPT-4 for Enhanced Interpretability and Public Engagement	Mar 5, 2024	Decision MakingLanguage Modelling	CodeCode Available
LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning	Oct 12, 2024	Knowledge GraphsLanguage Modeling	CodeCode Available
LaMemo: Language Modeling with Look-Ahead Memory	Apr 15, 2022	Language ModelingLanguage Modelling	CodeCode Available
Parameter Efficient Fine Tuning Llama 3.1 for Answering Arabic Legal Questions: A Case Study on Jordanian Laws	Jun 2, 2025	Language ModelingLanguage Modelling	CodeCode Available
KGLink: A column type annotation method that combines knowledge graph and pre-trained language model	Jun 1, 2024	Column Type AnnotationDeep Learning	CodeCode Available
Self Supervision for Attention Networks	Jan 6, 2021	image-classificationImage Classification	CodeCode Available
Panoramic Interests: Stylistic-Content Aware Personalized Headline Generation	Jan 21, 2025	Contrastive LearningHeadline Generation	CodeCode Available
Self-Train Before You Transcribe	Jun 17, 2024	Domain AdaptationLanguage Modelling	CodeCode Available
Towards DS-NER: Unveiling and Addressing Latent Noise in Distant Annotations	May 18, 2025	Language ModelingLanguage Modelling	CodeCode Available
Mistral-SPLADE: LLMs for better Learned Sparse Retrieval	Aug 20, 2024	DecoderLanguage Modeling	CodeCode Available
Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems	Aug 28, 2021	dialog state trackingFew-Shot Learning	CodeCode Available
Self-training Large Language Models through Knowledge Detection	Jun 17, 2024	HallucinationLanguage Modeling	CodeCode Available
Self-Training Pre-Trained Language Models for Zero- and Few-Shot Multi-Dialectal Arabic Sequence Labeling	Jan 12, 2021	Language ModellingNER	CodeCode Available
Misinformation Has High Perplexity	Jun 8, 2020	Language ModelingLanguage Modelling	CodeCode Available
Learning Private Neural Language Modeling with Attentive Aggregation	Dec 17, 2018	Federated LearningLanguage Modeling	CodeCode Available
Language Models Still Struggle to Zero-shot Reason about Time Series	Apr 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
Tree Transformer: Integrating Tree Structures into Self-Attention	Sep 14, 2019	Language ModelingLanguage Modelling	CodeCode Available
Semantically Consistent Data Augmentation for Neural Machine Translation via Conditional Masked Language Model	Sep 22, 2022	Data AugmentationDiversity	CodeCode Available
Semantically Grounded Object Matching for Robust Robotic Scene Rearrangement	Nov 15, 2021	Language ModellingObject	CodeCode Available
Semantically Meaningful Metrics for Norwegian ASR Systems	Sep 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Semantic and sentiment analysis of selected Bhagavad Gita translations using BERT-based language framework	Jan 9, 2022	Deep LearningLanguage Modelling	CodeCode Available
Juman++: A Morphological Analysis Toolkit for Scriptio Continua	Nov 1, 2018	Art AnalysisLanguage Modeling	CodeCode Available
Learning Parametric Distributions from Samples and Preferences	May 29, 2025	Language ModelingLanguage Modelling	CodeCode Available
PanGu-Coder: Program Synthesis with Function-Level Language Modeling	Jul 22, 2022	Code GenerationDecoder	CodeCode Available
PanGu-Bot: Efficient Generative Dialogue Pre-training from Pre-trained Language Model	Mar 31, 2022	Dialogue GenerationLanguage Modeling	CodeCode Available
SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features Learning from a Language Model	Apr 5, 2022	Language ModelingLanguage Modelling	CodeCode Available
Trellis Networks for Sequence Modeling	Oct 15, 2018	Language ModelingLanguage Modelling	CodeCode Available
Semantic Coherence Markers for the Early Diagnosis of the Alzheimer Disease	Feb 2, 2023	Language ModelingLanguage Modelling	CodeCode Available
Language models show human-like content effects on reasoning tasks	Jul 14, 2022	Language ModellingLogical Reasoning	CodeCode Available
Using Persuasive Writing Strategies to Explain and Detect Health Misinformation	Nov 11, 2022	Fake News DetectionLanguage Modelling	CodeCode Available
MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding	Sep 10, 2024	BenchmarkingLanguage Modeling	CodeCode Available
Minimizing PLM-Based Few-Shot Intent Detectors	Jul 13, 2024	Data AugmentationKnowledge Distillation	CodeCode Available
SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish	Apr 27, 2023	GPULanguage Modeling	CodeCode Available
PaLM: A Hybrid Parser and Language Model	Sep 4, 2019	Language ModelingLanguage Modelling	CodeCode Available
Pairing Analogy-Augmented Generation with Procedural Memory for Procedural Q&A	Sep 2, 2024	Language ModellingQuestion Answering	CodeCode Available
Mini Minds: Exploring Bebeshka and Zlata Baby Models	Nov 6, 2023	DecoderLanguage Acquisition	CodeCode Available
Semantic Labeling Using a Deep Contextualized Language Model	Oct 30, 2020	Language ModelingLanguage Modelling	CodeCode Available
LAMOL: LAnguage MOdeling for Lifelong Language Learning	Sep 7, 2019	Continual LearningLanguage Modeling	CodeCode Available
Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia	Oct 2, 2024	Language ModelingLanguage Modelling	CodeCode Available
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO	May 19, 2025	DecoderImage Generation	CodeCode Available
PAIR: A Novel Large Language Model-Guided Selection Strategy for Evolutionary Algorithms	Mar 5, 2025	DiversityEvolutionary Algorithms	CodeCode Available
MIMO: A Medical Vision Language Model with Visual Referring Multimodal Input and Pixel Grounding Multimodal Output	Jan 1, 2025	Instruction FollowingLanguage Modeling	CodeCode Available
MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion	Oct 29, 2023	Information RetrievalLanguage Modelling	CodeCode Available
Logit Separability-Driven Samples and Multiple Class-Related Words Selection for Advancing In-Context Learning	Jun 16, 2024	In-Context LearningLanguage Modeling	CodeCode Available
Learning of Generalizable and Interpretable Knowledge in Grid-Based Reinforcement Learning Environments	Sep 7, 2023	Atari GamesDecision Making	CodeCode Available
Planning with Multi-Constraints via Collaborative Language Agents	May 26, 2024	Language ModellingLarge Language Model	CodeCode Available
MetaSC: Test-Time Safety Specification Optimization for Language Models	Feb 11, 2025	Language ModelingLanguage Modelling	CodeCode Available
Language Model Sentence Completion with a Parser-Driven Rhetorical Control Method	Feb 9, 2024	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 311 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified