Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6051–6100 of 17610 papers

Title	Date	Tasks	Status	Score
ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case Study	Dec 19, 2024	AstronomyDomain Adaptation	CodeCode Available	5
Simple Fusion: Return of the Language Model	Sep 1, 2018	Language ModelingLanguage Modelling	CodeCode Available	5
LIBRA: Measuring Bias of Large Language Model from a Local Context	Feb 2, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Memory-efficient Stochastic methods for Memory-based Transformers	Nov 14, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Libra-Merging: Importance-redundancy and Pruning-merging Trade-off for Acceleration Plug-in in Large Vision-Language Model	Jan 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
SimCPSR: Simple Contrastive Learning for Paper Submission Recommendation System	May 12, 2022	Contrastive LearningLanguage Modelling	CodeCode Available	5
Multi-Programming Language Ensemble for Code Generation in Large Language Model	Sep 6, 2024	Code GenerationHumanEval	CodeCode Available	5
Memory Transformer	Jun 20, 2020	Language ModelingLanguage Modelling	CodeCode Available	5
Repairing Language Model Pipelines by Meta Self-Refining Competing Constraints at Runtime	Jul 11, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks	Oct 22, 2018	Constituency Grammar InductionInductive Bias	CodeCode Available	5
Neural Machine Translation in Linear Time	Oct 31, 2016	DecoderLanguage Modelling	CodeCode Available	5
MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning	Mar 11, 2024	DecoderIn-Context Learning	CodeCode Available	5
Neural Machine Translation For Low Resource Languages	Apr 16, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Simple Unsupervised Summarization by Contextual Matching	Jul 31, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction	Aug 12, 2023	Cross-Lingual TransferLanguage Modelling	CodeCode Available	5
Memory-Efficient Adaptive Optimization	Jan 30, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction	Oct 29, 2021	Extreme Multi-Label ClassificationLanguage Modelling	CodeCode Available	5
SILC-EFSA: Self-aware In-context Learning Correction for Entity-level Financial Sentiment Analysis	Dec 26, 2024	In-Context LearningLanguage Modeling	CodeCode Available	5
Neural Linguistic Steganography	Sep 3, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
keepitsimple at SemEval-2025 Task 3: LLM-Uncertainty based Approach for Multilingual Hallucination Span Detection	May 23, 2025	HallucinationLanguage Modeling	CodeCode Available	5
Simplifying Scholarly Abstracts for Accessible Digital Libraries	Aug 7, 2024	Language Modelling	CodeCode Available	5
LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization	Aug 2, 2021	Language ModelingLanguage Modelling	CodeCode Available	5
NoCoLA: The Norwegian Corpus of Linguistic Acceptability	Jun 13, 2023	Binary ClassificationDiagnostic	CodeCode Available	5
Optimizing Retrieval-augmented Reader Models via Token Elimination	Oct 20, 2023	Answer GenerationDecoder	CodeCode Available	5
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks	Oct 18, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
Sig-Networks Toolkit: Signature Networks for Longitudinal Language Modelling	Dec 6, 2023	Language Modelling	CodeCode Available	5
Sig2text, a Vision-language model for Non-cooperative Radar Signal Parsing	Mar 19, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Training Vision-Language Models with Less Bimodal Supervision	Nov 1, 2022	Language Modelling	CodeCode Available	5
LLM Safety Alignment is Divergence Estimation in Disguise	Feb 2, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Siamese-DETR for Generic Multi-Object Tracking	Oct 27, 2023	Autonomous DrivingLanguage Modelling	CodeCode Available	5
Memory-Augmented Recurrent Neural Networks Can Learn Generalized Dyck Languages	Nov 8, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Reference Free Domain Adaptation for Translation of Noisy Questions with Question Specific Rewards	Oct 23, 2023	Community Question AnsweringDomain Adaptation	CodeCode Available	5
Recurrent Neural Network-Based Semantic Variational Autoencoder for Sequence-to-Sequence Learning	Feb 9, 2018	ImputationLanguage Modeling	CodeCode Available	5
OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser	Jun 24, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
The Traitors: Deception and Trust in Multi-Agent Language Model Simulations	May 19, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing	Apr 21, 2022	Contrastive LearningLanguage Modeling	CodeCode Available	5
PromptCL: Improving Event Representation via Prompt Template and Contrastive Learning	Apr 27, 2024	Contrastive LearningLanguage Modeling	CodeCode Available	5
A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives	Jul 22, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Single Headed Attention RNN: Stop Thinking With Your Head	Nov 26, 2019	GPUHyperparameter Optimization	CodeCode Available	5
Language Model Alignment with Elastic Reset	Dec 6, 2023	ChatbotLanguage Modeling	CodeCode Available	5
Revisiting Few-Shot Object Detection with Vision-Language Models	Dec 22, 2023	Autonomous VehiclesFew-Shot Object Detection	CodeCode Available	5
PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference	Mar 30, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
LG-CAV: Train Any Concept Activation Vector with Language Guidance	Oct 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Neural Lattice Language Models	Mar 13, 2018	Language ModelingLanguage Modelling	CodeCode Available	5
SJ_AJ@DravidianLangTech-EACL2021: Task-Adaptive Pre-Training of Multilingual BERT models for Offensive Language Identification	Feb 1, 2021	Language IdentificationLanguage Modeling	CodeCode Available	5
mTSBench: Benchmarking Multivariate Time Series Anomaly Detection and Model Selection at Scale	Jun 26, 2025	Anomaly DetectionBenchmarking	CodeCode Available	5
Language Models as Context-sensitive Word Search Engines	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
Knowledge Distillation with Reptile Meta-Learning for Pretrained Language Model Compression	Oct 1, 2022	Knowledge DistillationLanguage Modeling	CodeCode Available	5
Show and Guide: Instructional-Plan Grounded Vision and Language Model	Sep 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
The Unreasonable Effectiveness of Transformer Language Models in Grammatical Error Correction	Jun 4, 2019	Grammatical Error CorrectionLanguage Modeling	CodeCode Available	5

Show:10 25 50

← PrevPage 122 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified