Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15101–15150 of 17610 papers

Title	Date	Tasks	Status
TourSynbio-Search: A Large Language Model Driven Agent Framework for Unified Search Method for Protein Engineering	Nov 9, 2024	Information RetrievalLanguage Modeling	CodeCode Available
mTSBench: Benchmarking Multivariate Time Series Anomaly Detection and Model Selection at Scale	Jun 26, 2025	Anomaly DetectionBenchmarking	CodeCode Available
Stealth edits to large language models	Jun 18, 2024	Language ModellingModel Editing	CodeCode Available
MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction	Aug 12, 2023	Cross-Lingual TransferLanguage Modelling	CodeCode Available
The Crucial Role of Samplers in Online Direct Preference Optimization	Sep 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
PrOnto: Language Model Evaluations for 859 Languages	May 22, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available
Prompt Tuning or Fine-Tuning - Investigating Relational Knowledge in Pre-Trained Language Models	Jun 22, 2021	fill-maskFill Mask	CodeCode Available
LLM Safety Alignment is Divergence Estimation in Disguise	Feb 2, 2025	Language ModelingLanguage Modelling	CodeCode Available
MST5 -- Multilingual Question Answering over Knowledge Graphs	Jul 8, 2024	DiversityGraph Question Answering	CodeCode Available
MSDT: Masked Language Model Scoring Defense in Text Domain	Nov 10, 2022	Backdoor Attackbackdoor defense	CodeCode Available
MpoxVLM: A Vision-Language Model for Diagnosing Skin Lesions from Mpox Virus Infection	Nov 16, 2024	DiagnosticInstruction Following	CodeCode Available
Prompt-Time Ontology-Driven Symbolic Knowledge Capture with Large Language Models	May 22, 2024	Language ModelingLanguage Modelling	CodeCode Available
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	Sep 17, 2024	cross-modal alignmentImage Captioning	CodeCode Available
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available
ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense	Oct 30, 2023	Common Sense ReasoningLanguage Modeling	CodeCode Available
K-12BERT: BERT for K-12 education	May 24, 2022	Language ModelingLanguage Modelling	CodeCode Available
MotionCom: Automatic and Motion-Aware Image Composition with LLM and Video Diffusion Prior	Sep 16, 2024	Image GenerationLanguage Modeling	CodeCode Available
Morphology Matters: A Multilingual Language Modeling Analysis	Dec 11, 2020	Language ModelingLanguage Modelling	CodeCode Available
RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning	Jun 16, 2024	knowledge editingLanguage Modeling	CodeCode Available
Stepwise Alignment for Constrained Language Model Policy Optimization	Apr 17, 2024	Computational EfficiencyLanguage Modeling	CodeCode Available
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors	Jul 12, 2024	Language ModelingLanguage Modelling	CodeCode Available
PromptShots at the FinNLP-2022 ERAI Tasks: Pairwise Comparison and Unsupervised Ranking	Jan 16, 2023	Language Modelling	CodeCode Available
Rotational Unit of Memory	Oct 26, 2017	Language ModelingLanguage Modelling	CodeCode Available
StereoKG: Data-Driven Knowledge Graph Construction for Cultural Knowledge and Stereotypes	May 27, 2022	Fairnessgraph construction	CodeCode Available
Round Trip Translation Defence against Large Language Model Jailbreaking Attacks	Feb 21, 2024	Language ModelingLanguage Modelling	CodeCode Available
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation	Mar 11, 2025	Domain GeneralizationLanguage Modeling	CodeCode Available
Understanding the effects of language-specific class imbalance in multilingual fine-tuning	Feb 20, 2024	Language ModelingLanguage Modelling	CodeCode Available
Routing Networks and the Challenges of Modular and Compositional Computation	Apr 29, 2019	Language ModelingLanguage Modelling	CodeCode Available
Just What You Desire: Constrained Timeline Summarization with Self-Reflection for Enhanced Relevance	Dec 23, 2024	ArticlesLanguage Modeling	CodeCode Available
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars	May 25, 2024	In-Context LearningLanguage Modelling	CodeCode Available
AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With Large Language Models	May 24, 2023	Decision MakingLanguage Modelling	CodeCode Available
Strings from the Library of Babel: Random Sampling as a Strong Baseline for Prompt Optimisation	Nov 16, 2023	Language Modellingtext-classification	CodeCode Available
PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using Large Language Models	Dec 11, 2023	DescriptiveLanguage Modeling	CodeCode Available
Prompt Learning to Mitigate Catastrophic Forgetting in Cross-lingual Transfer for Open-domain Dialogue Generation	May 12, 2023	Cross-Lingual TransferDialogue Generation	CodeCode Available
Prompting Vision-Language Model for Nuclei Instance Segmentation and Classification	Mar 27, 2025	Cell SegmentationContrastive Learning	CodeCode Available
r-softmax: Generalized Softmax with Controllable Sparsity Rate	Apr 11, 2023	Language ModelingLanguage Modelling	CodeCode Available
Prompting or Fine-tuning? A Comparative Study of Large Language Models for Taxonomy Construction	Sep 4, 2023	Language Modelling	CodeCode Available
Prompt-enhanced Network for Hateful Meme Classification	Nov 12, 2024	ClassificationContrastive Learning	CodeCode Available
Prompt Engineering for Transformer-based Chemical Similarity Search Identifies Structurally Distinct Functional Analogues	May 17, 2023	Language ModelingLanguage Modelling	CodeCode Available
PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference	Mar 30, 2025	Language ModelingLanguage Modelling	CodeCode Available
Translating Math Formula Images to LaTeX Sequences Using Deep Neural Networks with Sequence-level Training	Aug 29, 2019	DecoderLanguage Modelling	CodeCode Available
R-Transformer: Recurrent Neural Network Enhanced Transformer	Jul 12, 2019	Language ModellingMusic Modeling	CodeCode Available
RTSUM: Relation Triple-based Interpretable Summarization with Multi-level Salience Visualization	Oct 21, 2023	Language ModelingLanguage Modelling	CodeCode Available
MorphAgent: Empowering Agents through Self-Evolving Profiles and Decentralized Collaboration	Oct 19, 2024	Language ModelingLanguage Modelling	CodeCode Available
RU22Fact: Optimizing Evidence for Multilingual Explainable Fact-Checking on Russia-Ukraine Conflict	Mar 25, 2024	16kClaim Verification	CodeCode Available
PromptCL: Improving Event Representation via Prompt Template and Contrastive Learning	Apr 27, 2024	Contrastive LearningLanguage Modeling	CodeCode Available
Jasper: An End-to-End Convolutional Neural Acoustic Model	Apr 5, 2019	DecoderLanguage Modeling	CodeCode Available
RUIE: Retrieval-based Unified Information Extraction using Large Language Model	Sep 18, 2024	Contrastive LearningIn-Context Learning	CodeCode Available
Morfessor FlatCat: An HMM-Based Method for Unsupervised and Semi-Supervised Learning of Morphology	Aug 1, 2014	Language ModellingMorphological Analysis	CodeCode Available
LLM Reading Tea Leaves: Automatically Evaluating Topic Models with Large Language Models	Jun 13, 2024	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 303 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified