Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6901–6950 of 17610 papers

Title	Date	Tasks	Status
ScaffoldGPT: A Scaffold-based GPT Model for Drug Optimization	Feb 9, 2025	Language ModelingLanguage Modelling	—Unverified
Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data	Apr 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation	Nov 6, 2023	Language ModelingLanguage Modelling	—Unverified
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling	Nov 23, 2016	Language ModelingLanguage Modelling	—Unverified
Scalable Ensembling For Mitigating Reward Overoptimisation	Jun 3, 2024	Instruction FollowingLanguage Modeling	—Unverified
Scalable language model adaptation for spoken dialogue systems	Dec 11, 2018	Language ModelingLanguage Modelling	—Unverified
Scalable Language Models with Posterior Inference of Latent Thought Vectors	Feb 3, 2025	DecoderLanguage Modeling	—Unverified
LPNL: Scalable Link Prediction with Large Language Models	Jan 24, 2024	Graph LearningLanguage Modelling	—Unverified
Scalable LLM Math Reasoning Acceleration with Low-rank Distillation	May 8, 2025	Language ModelingLanguage Modelling	—Unverified
Scalable Modified Kneser-Ney Language Model Estimation	Aug 1, 2013	Language ModelingLanguage Modelling	—Unverified
Scalable Neural Learning for Verifiable Consistency with Temporal Specifications	Sep 25, 2019	Adversarial RobustnessLanguage Modeling	—Unverified
Scalable Syntax-Aware Language Models Using Knowledge Distillation	Jun 14, 2019	Knowledge DistillationLanguage Modeling	—Unverified
Scalable Vision Language Model Training via High Quality Data Curation	Jan 10, 2025	Instruction FollowingLanguage Modeling	—Unverified
Scaling Context, Not Parameters: Training a Compact 7B Language Model for Efficient Long-Context Processing	May 13, 2025	Face ModelIn-Context Learning	—Unverified
Scaling Embedding Layers in Language Models	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified
Scaling Language Model Size in Cross-Device Federated Learning	Mar 31, 2022	Federated LearningLanguage Modeling	—Unverified
Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning	Jan 8, 2025	GPULanguage Modeling	—Unverified
Scaling Laws for Adversarial Attacks on Language Model Activations	Dec 5, 2023	Language ModelingLanguage Modelling	—Unverified
Scaling Laws for Deep Learning	Aug 17, 2021	Deep Learningimage-classification	—Unverified
Scaling Laws for Differentially Private Language Models	Jan 31, 2025	Language ModelingLanguage Modelling	—Unverified
Scaling Laws for Discriminative Classification in Large Language Models	May 24, 2024	HallucinationLanguage Modeling	—Unverified
Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Translation	Sep 4, 2024	Language ModellingLarge Language Model	—Unverified
Scaling Laws for Pre-training Agents and World Models	Nov 7, 2024	Imitation LearningLanguage Modeling	—Unverified
Scaling Law with Learning Rate Annealing	Aug 20, 2024	Language Modelling	—Unverified
Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes	Oct 27, 2016	Language ModelingLanguage Modelling	—Unverified
Scaling Parameter-Constrained Language Models with Quality Data	Oct 4, 2024	DiversityLanguage Modeling	—Unverified
Scaling Recurrent Neural Network Language Models	Feb 2, 2015	Language ModellingMachine Translation	—Unverified
Scaling Studies for Efficient Parameter Search and Parallelism for Large Language Model Pre-training	Oct 9, 2023	DecoderGPU	—Unverified
Scaling Technology Acceptance Analysis with Large Language Model (LLM) Annotation Systems	Jun 30, 2024	Language ModelingLanguage Modelling	—Unverified
Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization	Aug 28, 2024	Extractive SummarizationExtractive Text Summarization	—Unverified
SCCA: Shifted Cross Chunk Attention for long contextual semantic expansion	Dec 12, 2023	4k8k	—Unverified
Scenario-based Multi-product Advertising Copywriting Generation for E-Commerce	May 21, 2022	AttributeLanguage Modeling	—Unverified
SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code	Mar 2, 2024	Language ModelingLanguage Modelling	—Unverified
SceneGPT: A Language Model for 3D Scene Understanding	Aug 13, 2024	In-Context LearningLanguage Modeling	—Unverified
Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning	Mar 18, 2024	3D Question Answering (3D-QA)Dense Captioning	—Unverified
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model	Mar 19, 2024	3D Object DetectionDecoder	—Unverified
Scene Text Recognition with Image-Text Matching-guided Dictionary	May 8, 2023	Image-text matchingLanguage Modeling	—Unverified
Scene Transformer: A unified architecture for predicting future trajectories of multiple agents	Sep 29, 2021	Autonomous DrivingLanguage Modeling	—Unverified
SceneX: Procedural Controllable Large-scale Scene Generation	Mar 23, 2024	DiversityLanguage Modelling	—Unverified
SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More Reliable	Mar 13, 2025	Language ModelingLanguage Modelling	—Unverified
Schema Augmentation for Zero-Shot Domain Adaptation in Dialogue State Tracking	Oct 31, 2024	Data AugmentationDialogue State Tracking	—Unverified
Schema-Free Dependency Parsing via Sequence Generation	Nov 16, 2021	DecoderDependency Parsing	—Unverified
Schema-Free Dependency Parsing via Sequence Generation	Jan 28, 2022	DecoderDependency Parsing	—Unverified
Schema Graph-Guided Prompt for Multi-Domain Dialogue State Tracking	Nov 10, 2023	Dialogue State TrackingGraph Neural Network	—Unverified
Schemato -- An LLM for Netlist-to-Schematic Conversion	Nov 21, 2024	Language ModelingLanguage Modelling	—Unverified
The Diminishing Returns of Masked Language Models to Science	May 23, 2022	Language ModelingLanguage Modelling	—Unverified
SciDFM: A Large Language Model with Mixture-of-Experts for Science	Sep 27, 2024	Language ModelingLanguage Modelling	—Unverified
From Complexity to Clarity: How AI Enhances Perceptions of Scientists and the Public's Understanding of Science	Apr 23, 2024	ArticlesLanguage Modelling	—Unverified
Scientific Hypothesis Generation by a Large Language Model: Laboratory Validation in Breast Cancer Treatment	May 20, 2024	Language ModelingLanguage Modelling	—Unverified
scInterpreter: Training Large Language Models to Interpret scRNA-seq Data for Cell Type Annotation	Feb 18, 2024	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 139 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified