Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15601–15650 of 17610 papers

Title	Date	Tasks	Status
SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text	May 18, 2018	DescriptiveImage Captioning	CodeCode Available
Language Models Can Learn Exceptions to Syntactic Rules	Jun 9, 2023	Language ModelingLanguage Modelling	CodeCode Available
Learning Intrinsic Sparse Structures within Long Short-Term Memory	Sep 15, 2017	Language ModelingLanguage Modelling	CodeCode Available
Towards Generating Query to Perform Query Focused Abstractive Summarization using Pre-trained Model	Dec 1, 2020	Abstractive Text SummarizationLanguage Modeling	CodeCode Available
Syntactic realization with data-driven neural tree grammars	Dec 1, 2016	Language ModelingLanguage Modelling	CodeCode Available
Sensei: Self-Supervised Sensor Name Segmentation	Jan 1, 2021	Language ModelingLanguage Modelling	CodeCode Available
LIMP: Large Language Model Enhanced Intent-aware Mobility Prediction	Aug 23, 2024	Language ModelingLanguage Modelling	CodeCode Available
LIMIT-BERT : Linguistics Informed Multi-Task BERT	Nov 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case Study	Dec 19, 2024	AstronomyDomain Adaptation	CodeCode Available
Syntactic Substitutability as Unsupervised Dependency Syntax	Nov 29, 2022	Dependency ParsingLanguage Modeling	CodeCode Available
Syntactic Surprisal From Neural Models Predicts, But Underestimates, Human Processing Difficulty From Syntactic Ambiguities	Oct 21, 2022	Language Modelling	CodeCode Available
Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task Generalization	Oct 17, 2022	Language Modelling	CodeCode Available
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis	May 30, 2025	DiversityLanguage Modeling	CodeCode Available
Oracle performance for visual captioning	Nov 14, 2015	Image CaptioningLanguage Modeling	CodeCode Available
Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-data Tasks	Nov 2, 2018	Language ModelingLanguage Modelling	CodeCode Available
Towards Harnessing Large Language Models for Comprehension of Conversational Grounding	Jun 3, 2024	Language ModelingLanguage Modelling	CodeCode Available
Sentence-level Media Bias Analysis with Event Relation Graph	Apr 2, 2024	Graph AttentionLanguage Modeling	CodeCode Available
Towards Hate Speech Detection at Large via Deep Generative Modeling	May 13, 2020	DiversityHate Speech Detection	CodeCode Available
Syntax-driven Data Augmentation for Named Entity Recognition	Aug 15, 2022	Data AugmentationLanguage Modeling	CodeCode Available
Language Models as Knowledge Bases?	Sep 3, 2019	Language ModellingOpen-Domain Question Answering	CodeCode Available
Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways	Oct 26, 2023	Language ModelingLanguage Modelling	CodeCode Available
TRAM: Bridging Trust Regions and Sharpness Aware Minimization	Oct 5, 2023	Cross-Lingual TransferDomain Generalization	CodeCode Available
Language Models as Context-sensitive Word Search Engines	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Language-Model Prior Overcomes Cold-Start Items	Nov 13, 2024	Collaborative FilteringLanguage Modeling	CodeCode Available
Learning from Past Mistakes: Improving Automatic Speech Recognition Output via Noisy-Clean Phrase Context Modeling	Feb 7, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adaptation	Aug 23, 2022	Language ModelingLanguage Modelling	CodeCode Available
SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge	Nov 6, 2019	Data AugmentationLanguage Modeling	CodeCode Available
Linguistic Frameworks Go Toe-to-Toe at Neuro-Symbolic Language Modeling	Dec 15, 2021	Language ModelingLanguage Modelling	CodeCode Available
KG-BERT: BERT for Knowledge Graph Completion	Sep 7, 2019	Knowledge Graph CompletionKnowledge Graphs	CodeCode Available
Sentiment analysis in tweets: an assessment study from classical to modern text representation models	May 29, 2021	Decision MakingLanguage Modelling	CodeCode Available
Memory-Efficient Adaptive Optimization	Jan 30, 2019	Language ModelingLanguage Modelling	CodeCode Available
Learning Dynamic Author Representations with Temporal Language Models	Sep 11, 2019	Information RetrievalLanguage Modeling	CodeCode Available
Memory-Augmented Recurrent Neural Networks Can Learn Generalized Dyck Languages	Nov 8, 2019	Language ModelingLanguage Modelling	CodeCode Available
Likelihood as a Performance Gauge for Retrieval-Augmented Generation	Nov 12, 2024	Language ModelingLanguage Modelling	CodeCode Available
Optimizing Retrieval-augmented Reader Models via Token Elimination	Oct 20, 2023	Answer GenerationDecoder	CodeCode Available
Synthesizing Interpretable Control Policies through Large Language Model Guided Search	Oct 7, 2024	Combinatorial OptimizationEvolutionary Algorithms	CodeCode Available
Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue	Feb 6, 2024	Explanation GenerationLanguage Modelling	CodeCode Available
Optimizing Deep Neural Networks using Safety-Guided Self Compression	May 1, 2025	Language ModelingLanguage Modelling	CodeCode Available
Transcending the Attention Paradigm: Representation Learning from Geospatial Social Media Data	Oct 9, 2023	BenchmarkingLanguage Modeling	CodeCode Available
Memory and Knowledge Augmented Language Models for Inferring Salience in Long-Form Stories	Sep 8, 2021	FormLanguage Modeling	CodeCode Available
Optimization of Armv9 architecture general large language model inference performance based on Llama.cpp	Jun 16, 2024	Compiler OptimizationLanguage Modeling	CodeCode Available
MeLT: Message-Level Transformer with Masked Document Representations as Pre-Training for Stance Detection	Sep 16, 2021	AttributeLanguage Modeling	CodeCode Available
OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering	Jul 2, 2025	Language ModelingLanguage Modelling	CodeCode Available
Language Model Preference Evaluation with Multiple Weak Evaluators	Oct 14, 2024	DenoisingLanguage Modeling	CodeCode Available
Synthetic Data Made to Order: The Case of Parsing	Oct 1, 2018	Cross-Lingual TransferDependency Parsing	CodeCode Available
Opening the Black Box: Analyzing Attention Weights and Hidden States in Pre-trained Language Models for Non-language Tasks	Jun 21, 2023	Language ModellingListOps	CodeCode Available
Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales	Mar 19, 2024	Hate Speech DetectionLanguage Modeling	CodeCode Available
Learning Deterministic Weighted Automata with Queries and Counterexamples	Oct 30, 2019	Language ModelingLanguage Modelling	CodeCode Available
Separating the Wheat from the Chaff with BREAD: An open-source benchmark and metrics to detect redundancy in text	Nov 11, 2023	Language ModelingLanguage Modelling	CodeCode Available
OpenFraming: Open-sourced Tool for Computational Framing Analysis of Multilingual Data	Nov 1, 2021	Language Modelling	CodeCode Available

Show:10 25 50

← PrevPage 313 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified