Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5676–5700 of 17610 papers

Title	Date	Tasks	Status	Score
Long Short-Term Memory-Networks for Machine Reading	Jan 25, 2016	DecoderLanguage Modeling	CodeCode Available	5
K-12BERT: BERT for K-12 education	May 24, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
Masked Latent Semantic Modeling: an Efficient Pre-training Alternative to Masked Language Modeling	Jul 7, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Local and Global Decoding in Text Generation	Oct 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
TempoGPT: Enhancing Temporal Reasoning via Quantizing Embedding	Jan 13, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Temporal Action Detection Using a Statistical Language Model	Jun 1, 2016	Action DetectionAction Recognition	CodeCode Available	5
Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs	Jan 9, 2024	Language ModellingLarge Language Model	CodeCode Available	5
Temporal Analysis of Language through Neural Language Models	May 14, 2014	Language ModelingLanguage Modelling	CodeCode Available	5
Model-tuning Via Prompts Makes NLP Models Adversarially Robust	Mar 13, 2023	Adversarial RobustnessLanguage Modelling	CodeCode Available	5
On the Choice of Modeling Unit for Sequence-to-Sequence Speech Recognition	Feb 5, 2019	DecoderLanguage Modeling	CodeCode Available	5
Sample Efficient Text Summarization Using a Single Pre-Trained Transformer	May 21, 2019	Abstractive Text SummarizationDecoder	CodeCode Available	5
Predicting Class Distribution Shift for Reliable Domain Adaptive Object Detection	Feb 13, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Temporal-Oriented Recipe for Transferring Large Vision-Language Model to Video Understanding	May 19, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery	Feb 26, 2024	Continual LearningExemplar-Free	CodeCode Available	5
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform	Mar 13, 2024	Language Model EvaluationLanguage Modelling	CodeCode Available	5
Sameness Entices, but Novelty Enchants in Fanfiction Online	Apr 16, 2019	Language Modelling	CodeCode Available	5
Learning Longer Memory in Recurrent Neural Networks	Dec 24, 2014	Language ModelingLanguage Modelling	CodeCode Available	5
Tensorized Embedding Layers for Efficient Model Compression	Jan 30, 2019	Language ModellingMachine Translation	CodeCode Available	5
Objectively Evaluating the Reliability of Cell Type Annotation Using LLM-Based Strategies	Sep 24, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning	Nov 17, 2024	Image CaptioningLanguage Modeling	CodeCode Available	5
Network Traffic Anomaly Detection Using Recurrent Neural Networks	Mar 28, 2018	Anomaly DetectionLanguage Modeling	CodeCode Available	5
Tensor Product Attention Is All You Need	Jan 11, 2025	AllLanguage Modeling	CodeCode Available	5
Neural Shuffle-Exchange Networks -- Sequence Processing in O(n log n) Time	Jul 18, 2019	LAMBADALanguage Modeling	CodeCode Available	5
Masked Language Models are Good Heterogeneous Graph Generalizers	Jun 6, 2025	Graph LearningLanguage Modeling	CodeCode Available	5
Learn from Failure: Fine-Tuning LLMs with Trial-and-Error Data for Intuitionistic Propositional Logic Proving	Apr 10, 2024	Automated Theorem ProvingLanguage Modeling	CodeCode Available	5

Show:10 25 50

← PrevPage 228 of 705Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified