Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17401–17450 of 17610 papers

Title	Date	Tasks	Status
Glyph-aware Embedding of Chinese Characters	Aug 31, 2017	Language ModelingLanguage Modelling	CodeCode Available
Confidence Score Based Speaker Adaptation of Conformer Speech Recognition Systems	Feb 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A-VL: Adaptive Attention for Large Vision-Language Models	Sep 23, 2024	Language ModelingLanguage Modelling	CodeCode Available
G-MAP: General Memory-Augmented Pre-trained Language Model for Domain Tasks	Dec 7, 2022	General KnowledgeLanguage Modeling	CodeCode Available
Exposing the Limits of Video-Text Models through Contrast Sets	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
GMAT: Global Memory Augmentation for Transformers	Jun 5, 2020	Language ModelingLanguage Modelling	CodeCode Available
An Empirical Revisiting of Linguistic Knowledge Fusion in Language Understanding Tasks	Oct 24, 2022	Language ModelingLanguage Modelling	CodeCode Available
GM-RKB WikiText Error Correction Task and Baselines	May 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
Restricted Recurrent Neural Networks	Aug 21, 2019	Language ModelingLanguage Modelling	CodeCode Available
An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training	Oct 1, 2020	ClusteringLanguage Modeling	CodeCode Available
Improving Natural Language Capability of Code Large Language Model	Jan 25, 2024	Code GenerationLanguage Modeling	CodeCode Available
Unipa-GPT: Large Language Models for university-oriented QA in Italian	Jul 19, 2024	ChatbotInformation Retrieval	CodeCode Available
Conditionally Learn to Pay Attention for Sequential Visual Task	Nov 11, 2019	Language ModelingLanguage Modelling	CodeCode Available
B-AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Black-box Adversarial Visual-Instructions	Mar 14, 2024	FairnessLanguage Modeling	CodeCode Available
Auto-tagging of Short Conversational Sentences using Natural Language Processing Methods	Jun 9, 2021	ChatbotLanguage Modeling	CodeCode Available
Goal-Aware Identification and Rectification of Misinformation in Multi-Agent Systems	May 31, 2025	Language ModelingLanguage Modelling	CodeCode Available
AKI-BERT: a Pre-trained Clinical Language Model for Early Prediction of Acute Kidney Injury	May 7, 2022	Language ModelingLanguage Modelling	CodeCode Available
Autoregressive Language Models For Estimating the Entropy of Epic EHR Audit Logs	Nov 10, 2023	Language ModelingLanguage Modelling	CodeCode Available
Goal-Oriented Script Construction	Jul 28, 2021	ArticlesLanguage Modeling	CodeCode Available
Conditionally Combining Robot Skills using Large Language Models	Oct 25, 2023	Deep Reinforcement LearningLanguage Modeling	CodeCode Available
Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text	Aug 21, 2019	Joint Entity and Relation ExtractionLanguage Modeling	CodeCode Available
"It doesn't look good for a date": Transforming Critiques into Preferences for Conversational Recommendation Systems	Sep 15, 2021	Common Sense ReasoningConversational Recommendation	CodeCode Available
AutoML-guided Fusion of Entity and LLM-based Representations for Document Classification	Aug 19, 2024	AutoMLClassification	CodeCode Available
Conditional Language Learning with Context	Jun 4, 2024	Causal Language ModelingLanguage Modeling	CodeCode Available
Automating the Correctness Assessment of AI-generated Code for Security Contexts	Oct 28, 2023	Language Modelling	CodeCode Available
Go Forth and Prosper: Language Modeling with Ancient Textual History	Apr 18, 2021	ArticlesLanguage Modeling	CodeCode Available
Improving Neural Language Modeling via Adversarial Training	Jun 10, 2019	DiversityLanguage Modeling	CodeCode Available
Improving Neural Language Models by Segmenting, Attending, and Predicting the Future	Jun 4, 2019	Language ModelingLanguage Modelling	CodeCode Available
Improving Neural Language Models with a Continuous Cache	Dec 13, 2016	Language ModelingLanguage Modelling	CodeCode Available
Conditional BERT Contextual Augmentation	Dec 17, 2018	Data AugmentationLanguage Modeling	CodeCode Available
Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and Transparency	Jun 13, 2024	Decision Makingimage-classification	CodeCode Available
Conceptualizing Suicidal Behavior: Utilizing Explanations of Predicted Outcomes to Analyze Longitudinal Social Media Data	Dec 13, 2023	Language Modelling	CodeCode Available
SUPP.AI: Finding Evidence for Supplement-Drug Interactions	Sep 17, 2019	ArticlesGeneral Classification	CodeCode Available
Automating Code-Related Tasks Through Transformers: The Impact of Pre-training	Feb 8, 2023	Bug fixingCode Completion	CodeCode Available
Conceptualized Representation Learning for Chinese Biomedical Text Mining	Aug 25, 2020	Language ModelingLanguage Modelling	CodeCode Available
Automatic Translation Alignment for Ancient Greek and Latin	Jun 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Automatic Short Math Answer Grading via In-context Meta-learning	May 30, 2022	automatic short answer gradingIn-Context Learning	CodeCode Available
Conceptual Engineering Using Large Language Models	Dec 1, 2023	ClassificationLanguage Modeling	CodeCode Available
ACL Ready: RAG Based Assistant for the ACL Checklist	Aug 7, 2024	EthicsLanguage Modeling	CodeCode Available
Good-Enough Compositional Data Augmentation	Apr 21, 2019	Data AugmentationDiagnostic	CodeCode Available
A Japanese Masked Language Model for Academic Domain	Oct 1, 2022	ArticlesLanguage Modeling	CodeCode Available
Automated Validation of Textual Constraints Against AutomationML via LLMs and SHACL	Jun 12, 2025	Language ModelingLanguage Modelling	CodeCode Available
S2ORC: The Semantic Scholar Open Research Corpus	Nov 7, 2019	Language Modelling	CodeCode Available
Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT	Dec 3, 2023	Caption GenerationDecoder	CodeCode Available
Improving Neural Network Quantization without Retraining using Outlier Channel Splitting	Jan 28, 2019	Language ModelingLanguage Modelling	CodeCode Available
Contrastive Novelty-Augmented Learning: Anticipating Outliers with Large Language Models	Nov 28, 2022	Language ModelingLanguage Modelling	CodeCode Available
Adaptive-Solver Framework for Dynamic Strategy Selection in Large Language Model Reasoning	Oct 1, 2023	Computational EfficiencyLanguage Modeling	CodeCode Available
A dynamical clipping approach with task feedback for Proximal Policy Optimization	Dec 12, 2023	Language ModellingLarge Language Model	CodeCode Available
Automatic deductive coding in discourse analysis: an application of large language models in learning analytics	Oct 2, 2024	Feature EngineeringLanguage Modeling	CodeCode Available
An Empirical Evaluation of Word Embedding Models for Subjectivity Analysis Tasks	Apr 6, 2021	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 349 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified