Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4601–4650 of 17610 papers

Title	Date	Tasks	Status
Conversational Topic Recommendation in Counseling and Psychotherapy with Decision Transformer and Large Language Models	May 8, 2024	Language ModelingLanguage Modelling	—Unverified
Conversation Chronicles: Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations	Oct 20, 2023	ChatbotDialogue Generation	—Unverified
Conversation Model Fine-Tuning for Classifying Client Utterances in Counseling Dialogues	Mar 31, 2019	Language ModelingLanguage Modelling	—Unverified
Conversion between Scripts of Punjabi: Beyond Simple Transliteration	Dec 1, 2012	Language ModellingTransliteration	—Unverified
Converting Continuous-Space Language Models into N-Gram Language Models for Statistical Machine Translation	Oct 1, 2013	Language ModellingMachine Translation	—Unverified
Convert Language Model into a Value-based Strategic Planner	May 11, 2025	Language ModelingLanguage Modelling	—Unverified
ConVEx: Data-Efficient and Few-Shot Slot Labeling	Oct 22, 2020	Language ModelingLanguage Modelling	—Unverified
Convolutional Neural Networks for Authorship Attribution of Short Texts	Apr 1, 2017	Authorship AttributionGeneral Classification	—Unverified
Convolutional Quantum-Like Language Model with Mutual-Attention for Product Rating Prediction	Dec 25, 2019	Language ModelingLanguage Modelling	—Unverified
Convolutional Sequence Modeling Revisited	Jan 1, 2018	Language ModellingTime Series Analysis	—Unverified
Convolutions Are All You Need (For Classifying Character Sequences)	Nov 1, 2018	AllClassification	—Unverified
ConVRT: Consistent Video Restoration Through Turbulence with Test-time Optimization of Neural Video Representations	Dec 7, 2023	Language ModelingLanguage Modelling	—Unverified
Cooking Is All About People: Comment Classification On Cookery Channels Using BERT and Classification Models (Malayalam-English Mix-Code)	Jun 15, 2020	AllClassification	—Unverified
CookingSense: A Culinary Knowledgebase with Multidisciplinary Assertions	May 1, 2024	DescriptiveLanguage Modeling	—Unverified
Cooperative SQL Generation for Segmented Databases By Using Multi-functional LLM Agents	Dec 8, 2024	Language ModelingLanguage Modelling	—Unverified
CopyBERT: A Unified Approach to Question Generation with Self-Attention	Jul 1, 2020	Dependency ParsingLanguage Modeling	—Unverified
CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction	May 17, 2025	Language ModelingLanguage Modelling	—Unverified
CORD19STS: COVID-19 Semantic Textual Similarity Dataset	Jul 5, 2020	Information RetrievalLanguage Modelling	—Unverified
Core Context Aware Attention for Long Context Language Modeling	Dec 17, 2024	Computational EfficiencyLanguage Modeling	—Unverified
Coreference and Coherence in Neural Machine Translation: A Study Using Oracle Experiments	Oct 1, 2018	Coreference ResolutionLanguage Modeling	—Unverified
Coreference Resolution in Full Text Articles with BERT and Syntax-based Mention Filtering	Nov 1, 2019	Articlescoreference-resolution	—Unverified
Coreference Resolution through a seq2seq Transition-Based System	Nov 22, 2022	coreference-resolutionCoreference Resolution	—Unverified
CoreInfer: Accelerating Large Language Model Inference with Semantics-Inspired Adaptive Sparse Activation	Oct 23, 2024	GPULanguage Modeling	—Unverified
CoreLM: Coreference-aware Language Model Fine-Tuning	Nov 4, 2021	LAMBADALanguage Modeling	—Unverified
Corporate Bankruptcy Prediction with BERT Model	Nov 1, 2021	Domain AdaptationLanguage Modeling	—Unverified
Corporate Bankruptcy Prediction with Domain-Adapted BERT	Dec 6, 2023	Domain AdaptationLanguage Modeling	—Unverified
Corpus-based Identification of Verbs Participating in Verb Alternations Using Classification and Manual Annotation	Dec 1, 2020	Language ModelingLanguage Modelling	—Unverified
Corpus Synthesis for Zero-shot ASR domain Adaptation using Large Language Models	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Correcting Automated and Manual Speech Transcription Errors using Warped Language Models	Mar 26, 2021	Language ModelingLanguage Modelling	—Unverified
Correcting Large Language Model Behavior via Influence Function	Dec 21, 2024	Language ModelingLanguage Modelling	—Unverified
Correcting Preposition Errors in Learner English Using Error Case Frames and Feedback Messages	Jun 1, 2014	Grammatical Error CorrectionLanguage Modelling	—Unverified
Correcting Serial Grammatical Errors based on N-grams and Syntax	Dec 1, 2013	Grammatical Error CorrectionLanguage Modelling	—Unverified
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization	Jul 18, 2024	Language ModelingLanguage Modelling	—Unverified
Correction Focused Language Model Training for Speech Recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Correction of Automatic Speech Recognition with Transformer Sequence-to-sequence Model	Oct 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Correlated Bigram LSA for Unsupervised Language Model Adaptation	Dec 1, 2008	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Correlation Dimension of Natural Language in a Statistical Manifold	May 10, 2024	Language ModelingLanguage Modelling	—Unverified
Corruption Is Not All Bad: Incorporating Discourse Structure into Pre-training via Corruption for Essay Scoring	Oct 13, 2020	AllAutomated Essay Scoring	—Unverified
Cortical microcircuits as gated-recurrent neural networks	Nov 7, 2017	image-classificationImage Classification	—Unverified
CoSiNES: Contrastive Siamese Network for Entity Standardization	Jun 5, 2023	Language ModelingLanguage Modelling	—Unverified
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning	Nov 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training	Jan 1, 2024	Language ModellingReading Comprehension	—Unverified
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning	Jul 2, 2024	Active LearningLanguage Modelling	—Unverified
Could a Large Language Model be Conscious?	Mar 4, 2023	Language ModelingLanguage Modelling	—Unverified
Count-based State Merging for Probabilistic Regular Tree Grammars	Jan 1, 2015	Language Modelling	—Unverified
Counterfactual Memorization in Neural Language Models	Dec 24, 2021	counterfactualLanguage Modeling	—Unverified
MCD: A Model-Agnostic Counterfactual Search Method For Multi-modal Design Modifications	May 18, 2023	counterfactualLanguage Modelling	—Unverified
Countering Language Drift via Grounding	Sep 27, 2018	Language ModelingLanguage Modelling	—Unverified
Countering Language Drift via Visual Grounding	Sep 10, 2019	Language ModelingLanguage Modelling	—Unverified
Counting in Language with RNNs	Oct 29, 2018	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 93 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified