Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5951–6000 of 17610 papers

Title	Date	Tasks	Status
An Empirical Investigation of Domain Adaptation Ability for Chinese Spelling Check Models	Jan 26, 2024	Domain AdaptationLanguage Modeling	—Unverified
An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning	Mar 7, 2025	Conformal PredictionLanguage Modelling	—Unverified
An Empirical Study of Contextual Data Augmentation for Japanese Zero Anaphora Resolution	Nov 2, 2020	Data AugmentationLanguage Modeling	—Unverified
An Empirical Study of Efficient ASR Rescoring with Transformers	Oct 24, 2019	Knowledge DistillationLanguage Modeling	—Unverified
An Empirical Study of Federated Prompt Learning for Vision Language Model	May 29, 2025	Federated LearningLanguage Modeling	—Unverified
An Empirical Study of Finding Similar Exercises	Nov 16, 2021	DiversityLanguage Modeling	—Unverified
An Empirical Study of Language Model Integration for Transducer based Speech Recognition	Mar 31, 2022	Language ModelingLanguage Modelling	—Unverified
An Empirical Study of Machine Translation for the Shared Task of WMT18	Oct 1, 2018	Chinese Word SegmentationLanguage Modeling	—Unverified
An Empirical Study of Mamba-based Language Models	Jun 12, 2024	16kIn-Context Learning	—Unverified
An Empirical Study Of Semi-Supervised Chinese Word Segmentation Using Co-Training	Oct 1, 2013	Chinese Word SegmentationLanguage Modelling	—Unverified
An Empirical Study on Measuring the Similarity of Sentential Arguments with Language Model Domain Adaptation	Feb 19, 2021	Argument MiningClustering	—Unverified
An Empirical Study on Pseudo-log-likelihood Bias Measures for Masked Language Models Using Paraphrased Sentences	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-trained Language Models	Nov 16, 2021	counterfactualData Augmentation	—Unverified
An End-to-End Document-Level Neural Discourse Parser Exploiting Multi-Granularity Representations	Dec 21, 2020	DecoderDiscourse Parsing	—Unverified
An End-to-End Speech Recognition for the Nepali Language	Dec 1, 2021	DecoderLanguage Modeling	—Unverified
An End-to-End Speech Summarization Using Large Language Model	Jul 2, 2024	Language ModelingLanguage Modelling	—Unverified
An Enhanced Large Language Model For Cross Modal Query Understanding System Using DL-KeyBERT Based CAZSSCL-MPGPT	Feb 24, 2025	Language ModelingLanguage Modelling	—Unverified
An Ensemble Approach to Personalized Real Time Predictive Writing for Experts	Aug 25, 2023	Language ModellingLarge Language Model	—Unverified
A Neural Approach to Pun Generation	Jul 1, 2018	DiversityImage Captioning	—Unverified
A neural document language modeling framework for spoken document retrieval	Oct 31, 2019	Information RetrievalLanguage Modeling	—Unverified
A Neural Knowledge Language Model	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
A Neural Local Coherence Analysis Model for Clarity Text Scoring	Dec 1, 2020	Language ModelingLanguage Modelling	—Unverified
A Neural Matrix Decomposition Recommender System Model based on the Multimodal Large Language Model	Jul 12, 2024	Language ModelingLanguage Modelling	—Unverified
A Neural Model for Language Identification in Code-Switched Tweets	Nov 1, 2016	Language IdentificationLanguage Modeling	—Unverified
A Neural Network Based Model for Loanword Identification in Uyghur	May 1, 2018	Language ModelingLanguage Modelling	—Unverified
A Neural Network for Factoid Question Answering over Paragraphs	Oct 1, 2014	Information RetrievalLanguage Modelling	—Unverified
A Neural Rewriting System to Solve Algorithmic Problems	Feb 27, 2024	Language ModelingLanguage Modelling	—Unverified
A Neuro-Symbolic Method for Solving Differential and Functional Equations	Nov 4, 2020	Language ModelingLanguage Modelling	—Unverified
An Evaluation of Subword Segmentation Strategies for Neural Machine Translation of Morphologically Rich Languages	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
An Evaluation on Large Language Model Outputs: Discourse and Memorization	Apr 17, 2023	counterfactualLanguage Modeling	—Unverified
An Evolutionary Large Language Model for Hallucination Mitigation	Dec 3, 2024	Dataset GenerationHallucination	—Unverified
An evolutionary model of personality traits related to cooperative behavior using a large language model	Oct 3, 2023	Language ModelingLanguage Modelling	—Unverified
A New Era in LLM Security: Exploring Security Concerns in Real-World LLM-based Systems	Feb 28, 2024	Language ModellingLarge Language Model	—Unverified
A New Massive Multilingual Dataset for High-Performance Language Technologies	Mar 20, 2024	Language ModelingLanguage Modelling	—Unverified
An experimental analysis of Noise-Contrastive Estimation: the noise distribution matters	Apr 1, 2017	Language ModelingLanguage Modelling	—Unverified
An Explainable AI Approach to Large Language Model Assisted Causal Model Auditing and Development	Dec 23, 2023	Causal InferenceEpidemiology	—Unverified
An Explainable Transformer-based Model for Phishing Email Detection: A Large Language Model Approach	Feb 21, 2024	Language ModelingLanguage Modelling	—Unverified
An Explanation of Intrinsic Self-Correction via Linear Representations and Latent Concepts	May 17, 2025	Concept AlignmentLanguage Modeling	—Unverified
An Exploration of Forest-to-String Translation: Does Translation Help or Hurt Parsing?	Jul 1, 2012	Language ModellingSentence	—Unverified
Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks	Oct 19, 2023	Few-Shot LearningIn-Context Learning	—Unverified
An Exploration of Prompt-Based Zero-Shot Relation Extraction Method	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
An Exploration of Prompt-Based Zero-Shot Relation Extraction Method	Oct 1, 2022	Language ModelingLanguage Modelling	—Unverified
An exploratory study of L1-specific non-words	Sep 2, 2020	Language ModelingLanguage Modelling	—Unverified
An Extensive Empirical Evaluation of Character-Based Morphological Tagging for 14 Languages	Apr 1, 2017	Language ModelingLanguage Modelling	—Unverified
An Extra RMSNorm is All You Need for Fine Tuning to 1.58 Bits	May 12, 2025	AllKnowledge Distillation	—Unverified
Animating the Past: Reconstruct Trilobite via Video Generation	Oct 10, 2024	Language ModellingLarge Language Model	—Unverified
An Implementation of Werewolf Agent That does not Truly Trust LLMs	Sep 3, 2024	Language ModelingLanguage Modelling	—Unverified
An Improved Hierarchical Word Sequence Language Model Using Directional Information	Oct 1, 2015	Language ModelingLanguage Modelling	—Unverified
An Improved Single Step Non-autoregressive Transformer for Automatic Speech Recognition	Jun 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Improved Transformer-based Model for Detecting Phishing, Spam, and Ham: A Large Language Model Approach	Nov 1, 2023	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 120 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified