Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15901–15950 of 17610 papers

Title	Date	Tasks	Status
Natural Language Decompositions of Implicit Content Enable Better Text Representations	May 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
Making Parameter-efficient Tuning More Efficient: A Unified Framework for Classification Tasks	Oct 1, 2022	ClassificationLanguage Modeling	CodeCode Available
Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs	Sep 17, 2024	Language ModellingSmall Language Model	CodeCode Available
Non-autoregressive Sequence-to-Sequence Vision-Language Models	Mar 4, 2024	DecoderLanguage Modeling	CodeCode Available
Time-Efficient Code Completion Model for the R Programming Language	Aug 1, 2021	Code CompletionLanguage Modeling	CodeCode Available
Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models	Apr 4, 2025	HallucinationLanguage Modeling	CodeCode Available
Telling Stories for Common Sense Zero-Shot Action Recognition	Sep 29, 2023	Action RecognitionArticles	CodeCode Available
Making Language Model a Hierarchical Classifier and Generator	Jul 17, 2025	DecoderLanguage Modeling	CodeCode Available
Tell me what I need to know: Exploring LLM-based (Personalized) Abstractive Multi-Source Meeting Summarization	Oct 18, 2024	InformativenessLanguage Modeling	CodeCode Available
Leveraging LLMs in Scholarly Knowledge Graph Question Answering	Nov 16, 2023	Graph Question AnsweringLanguage Modeling	CodeCode Available
Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training	Jun 25, 2024	DenoisingLanguage Modeling	CodeCode Available
Leveraging LLMs for Unsupervised Dense Retriever Ranking	Feb 7, 2024	Language ModellingLarge Language Model	CodeCode Available
Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction	Oct 29, 2021	Extreme Multi-Label ClassificationLanguage Modelling	CodeCode Available
Leveraging LLM Embeddings for Cross Dataset Label Alignment and Zero Shot Music Emotion Prediction	Oct 15, 2024	Emotion RecognitionLanguage Modeling	CodeCode Available
SMARTFinRAG: Interactive Modularized Financial RAG Benchmark	Apr 25, 2025	Language ModelingLanguage Modelling	CodeCode Available
NoCoLA: The Norwegian Corpus of Linguistic Acceptability	Jun 13, 2023	Binary ClassificationDiagnostic	CodeCode Available
MADLAD-400: A Multilingual And Document-Level Large Audited Dataset	Sep 9, 2023	Language ModelingLanguage Modelling	CodeCode Available
Machine-in-the-Loop Rewriting for Creative Image Captioning	Nov 7, 2021	DescriptiveImage Captioning	CodeCode Available
SMART: Submodular Data Mixture Strategy for Instruction Tuning	Mar 13, 2024	Language ModelingLanguage Modelling	CodeCode Available
Time Matters: Examine Temporal Effects on Biomedical Language Models	Jul 24, 2024	Language ModelingLanguage Modelling	CodeCode Available
SMASH at Qur’an QA 2022: Creating Better Faithful Data Splits for Low-resourced Question Answering Scenarios	Jun 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Machine-generated text detection prevents language model collapse	Feb 21, 2025	Language ModelingLanguage Modelling	CodeCode Available
NLQxform: A Language Model-based Question to SPARQL Transformer	Nov 8, 2023	Graph Question AnsweringKnowledge Graphs	CodeCode Available
TempoGPT: Enhancing Temporal Reasoning via Quantizing Embedding	Jan 13, 2025	Language ModelingLanguage Modelling	CodeCode Available
SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery	Nov 12, 2019	Drug DiscoveryLanguage Modeling	CodeCode Available
Temporal Action Detection Using a Statistical Language Model	Jun 1, 2016	Action DetectionAction Recognition	CodeCode Available
NiuTrans: An Open Source Toolkit for Phrase-based and Syntax-based Machine Translation	Jul 1, 2012	Language ModellingMachine Translation	CodeCode Available
M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets	Apr 2, 2024	Language ModelingLanguage Modelling	CodeCode Available
Temporal Analysis of Language through Neural Language Models	May 14, 2014	Language ModelingLanguage Modelling	CodeCode Available
An Investigation of Language Model Interpretability via Sentence Editing	Nov 28, 2020	General ClassificationLanguage Modeling	CodeCode Available
News Recommendation with Category Description by a Large Language Model	May 13, 2024	ArticlesLanguage Modeling	CodeCode Available
Smoothing Entailment Graphs with Language Models	Jul 30, 2022	DiversityExplainable Models	CodeCode Available
Knowledge Enhanced Contextual Word Representations	Sep 9, 2019	Entity LinkingEntity Typing	CodeCode Available
TULUN: Transparent and Adaptable Low-resource Machine Translation	May 24, 2025	Domain AdaptationLanguage Modeling	CodeCode Available
Leveraging Large Language Model to Generate a Novel Metaheuristic Algorithm with CRISPE Framework	Mar 25, 2024	Language ModelingLanguage Modelling	CodeCode Available
Improving Deep Learning Optimization through Constrained Parameter Regularization	Nov 15, 2023	Deep LearningImage Classification	CodeCode Available
Neuron to Graph: Interpreting Language Model Neurons at Scale	May 31, 2023	GPULanguage Modeling	CodeCode Available
Temporal-Oriented Recipe for Transferring Large Vision-Language Model to Video Understanding	May 19, 2025	Language ModelingLanguage Modelling	CodeCode Available
NeuroCounterfactuals: Beyond Minimal-Edit Counterfactuals for Richer Data Augmentation	Oct 22, 2022	counterfactualData Augmentation	CodeCode Available
Transformer Meets Twicing: Harnessing Unattended Residual Information	Mar 2, 2025	Adversarial Robustnessimage-classification	CodeCode Available
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base	Dec 16, 2023	cross-modal alignmentKnowledge Graphs	CodeCode Available
Neurocache: Efficient Vector Retrieval for Long-range Language Modeling	Jul 2, 2024	Few-Shot LearningLanguage Modeling	CodeCode Available
Leveraging Large Language Models for Code-Mixed Data Augmentation in Sentiment Analysis	Nov 1, 2024	Data AugmentationLanguage Modeling	CodeCode Available
Language Modeling with Sparse Product of Sememe Experts	Oct 29, 2018	Language ModelingLanguage Modelling	CodeCode Available
Tensorized Embedding Layers for Efficient Model Compression	Jan 30, 2019	Language ModellingMachine Translation	CodeCode Available
Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach	Jan 5, 2023	DecoderDescriptive	CodeCode Available
Social Bias in Elicited Natural Language Inferences	Apr 1, 2017	Language ModelingLanguage Modelling	CodeCode Available
SocialGaze: Improving the Integration of Human Social Norms in Large Language Models	Oct 11, 2024	Language ModelingLanguage Modelling	CodeCode Available
Iterative Pseudo-Labeling for Speech Recognition	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
LyapLock: Bounded Knowledge Preservation in Sequential Large Language Model Editing	May 21, 2025	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 319 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified