Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8001–8050 of 17610 papers

Title	Date	Tasks	Status
Improving Automatic Text Recognition with Language Models in the PyLaia Open-Source Library	Apr 29, 2024	Language ModelingLanguage Modelling	—Unverified
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction	Mar 20, 2025	Image GenerationLanguage Modeling	—Unverified
Improving Beam Search by Removing Monotonic Constraint for Neural Machine Translation	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Improving BERT with Hybrid Pooling Network and Drop Mask	Jul 14, 2023	Language ModelingLanguage Modelling	—Unverified
Improving Black-box Speech Recognition using Semantic Parsing	Nov 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations	May 10, 2025	Language ModelingLanguage Modelling	—Unverified
Improving Brain-to-Image Reconstruction via Fine-Grained Text Bridging	May 28, 2025	Image ReconstructionLanguage Modeling	—Unverified
Improving callsign recognition with air-surveillance data in air-traffic communication	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Character-Aware Neural Language Model by Warming up Character Encoder under Skip-gram Architecture	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Improving Chess Commentaries by Combining Language Models with Symbolic Reasoning Engines	Dec 15, 2022	Language ModelingLanguage Modelling	—Unverified
Improving Classification of Infrequent Cognitive Distortions: Domain-Specific Model vs. Data Augmentation	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified
Improving Code-switched ASR with Linguistic Information	Oct 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Code-switching Language Modeling with Artificially Generated Texts using Cycle-consistent Adversarial Networks	Dec 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Coherence of Language Model Generation with Latent Semantic State	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified
Improving Commonsense Causal Reasoning by Adversarial Training and Data Augmentation	Jan 13, 2021	Commonsense Causal ReasoningData Augmentation	—Unverified
Improving Commonsense Question Answering by Graph-based Iterative Retrieval over Multiple Knowledge Sources	Nov 5, 2020	Language ModelingLanguage Modelling	—Unverified
Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition	Oct 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Controllable Text Generation with Position-Aware Weighted Decoding	Nov 16, 2021	AttributeLanguage Modeling	—Unverified
Improving Controllable Text Generation with Position-Aware Weighted Decoding	May 1, 2022	AttributeLanguage Modeling	—Unverified
Improving Conversational Recommendation Systems’ Quality with Context-Aware Item Meta-Information	Jan 16, 2022	Conversational RecommendationKnowledge Graphs	—Unverified
Improving Conversational Recommendation Systems’ Quality with Context-Aware Item Meta-Information	Jul 1, 2022	Conversational RecommendationKnowledge Graphs	—Unverified
Improving corpus annotation productivity: a method and experiment with interactive tagging	May 1, 2012	Language Modelling	—Unverified
Improving cross-domain n-gram language modelling with skipgrams	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Improving Cross-Lingual Transfer Learning for End-to-End Speech Recognition with Speech Translation	Jun 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving CTC-based ASR Models with Gated Interlayer Collaboration	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Deliberation by Text-Only and Semi-Supervised Training	Jun 29, 2022	DecoderLanguage Modeling	—Unverified
Improving Disease Detection from Social Media Text via Self-Augmentation and Contrastive Learning	Apr 30, 2024	Contrastive LearningLanguage Modeling	—Unverified
Improving Diversity of Neural Text Generation via Inverse Probability Weighting	Mar 13, 2021	DiversityLanguage Modeling	—Unverified
Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions	Jul 25, 2024	Automatic Speech RecognitionDecoder	—Unverified
Improving domain-specific SMT for low-resourced languages using data from different domains	May 1, 2018	Domain AdaptationLanguage Modeling	—Unverified
Improving EEG based Continuous Speech Recognition	Nov 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Emotional Expression and Cohesion in Image-Based Playlist Description and Music Topics: A Continuous Parameterization Approach	Oct 2, 2023	continuous-controlContinuous Control	—Unverified
Improving Emotional Support Delivery in Text-Based Community Safety Reporting Using Large Language Models	Sep 24, 2024	Language ModelingLanguage Modelling	—Unverified
Improving Estonian Text Simplification through Pretrained Language Models and Custom Datasets	Jan 26, 2025	Language ModelingLanguage Modelling	—Unverified
Improving Event Temporal Relation Classification via Auxiliary Label-Aware Contrastive Learning	Oct 1, 2022	Contrastive LearningData Augmentation	—Unverified
Improving Explainable Recommendations with Synthetic Reviews	Jul 18, 2018	Language Model EvaluationLanguage Modeling	—Unverified
Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model	Nov 1, 2024	BenchmarkingCross-Domain Named Entity Recognition	—Unverified
Automatic Semantic Augmentation of Language Model Prompts (for Code Summarization)	Apr 13, 2023	Code SummarizationInformation Retrieval	—Unverified
Improving Hybrid CTC/Attention End-to-end Speech Recognition with Pretrained Acoustic and Language Model	Dec 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Image Captioning by Concept-based Sentence Reranking	May 3, 2016	Image CaptioningLanguage Modeling	—Unverified
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion	Jun 20, 2023	Image CaptioningLanguage Modelling	—Unverified
Improving Input-label Mapping with Demonstration Replay for In-context Learning	Oct 30, 2023	In-Context LearningLanguage Modeling	—Unverified
Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning	Feb 24, 2025	DiagnosticLanguage Modeling	—Unverified
Improving Language Model Adaptation using Automatic Data Selection and Neural Network	Sep 1, 2013	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Language Modeling using Densely Connected Recurrent Neural Networks	Jul 19, 2017	Language ModelingLanguage Modelling	—Unverified
Improving Language Model Integration for Neural Machine Translation	Jun 8, 2023	Automatic Speech RecognitionLanguage Modeling	—Unverified
Improving Language Modelling with Noise-contrastive estimation	Sep 22, 2017	Language ModellingMachine Translation	—Unverified
Improving Language Model Personas via Rationalization with Psychological Scaffolds	Apr 25, 2025	Language ModelingLanguage Modelling	—Unverified
Improving Language Model Prompting in Support of Semi-autonomous Task Learning	Sep 13, 2022	Language ModelingLanguage Modelling	—Unverified
Improving Language Model Reasoning with Self-motivated Learning	Apr 10, 2024	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 161 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified