Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5851–5900 of 17610 papers

Title	Date	Tasks	Status
A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition	Mar 25, 2025	Contrastive LearningIntent Recognition	—Unverified
A Meta-Learning Perspective on Transformers for Causal Language Modeling	Oct 9, 2023	Causal Language ModelingLanguage Modeling	—Unverified
A Methodology for Obtaining Concept Graphs from Word Graphs	Jul 1, 2012	Language ModellingSpeech Recognition	—Unverified
A Method on Searching Better Activation Functions	May 19, 2024	Language ModellingLarge Language Model	—Unverified
Amharic-English Speech Translation in Tourism Domain	Sep 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Amharic Word Sequence Prediction	Aug 1, 2019	Language ModelingLanguage Modelling	—Unverified
A Mixture-of-Expert Approach to RL-based Dialogue Management	May 31, 2022	AttributeDialogue Management	—Unverified
A Mixture of h-1 Heads is Better than h Heads	May 13, 2020	Language ModelingLanguage Modelling	—Unverified
A Mixture of h - 1 Heads is Better than h Heads	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
A ML-LLM pairing for better code comment classification	Oct 13, 2023	ClassificationInformation Retrieval	—Unverified
Amobee at SemEval-2020 Task 7: Regularization of Language Model Based Classifiers	Dec 1, 2020	Language ModelingLanguage Modelling	—Unverified
A Monte Carlo Framework for Calibrated Uncertainty Estimation in Sequence Prediction	Oct 30, 2024	Language ModelingLanguage Modelling	—Unverified
A Monte Carlo Language Model Pipeline for Zero-Shot Sociopolitical Event Extraction	May 24, 2023	Computational EfficiencyEvent Extraction	—Unverified
A more abstractive summarization model	Feb 25, 2020	Abstractive Text SummarizationDecoder	—Unverified
AMPO: Active Multi-Preference Optimization	Feb 25, 2025	Language ModelingLanguage Modelling	—Unverified
A Multi-Context Character Prediction Model for a Brain-Computer Interface	Jun 1, 2018	Brain Computer InterfaceEEG	—Unverified
A Multi-Expert Large Language Model Architecture for Verilog Code Generation	Apr 11, 2024	Code GenerationLanguage Modeling	—Unverified
Bridging Items and Language: A Transition Paradigm for Large Language Model-Based Recommendation	Oct 10, 2023	AttributeLanguage Modeling	—Unverified
A Multi-Granularity Retrieval Framework for Visually-Rich Documents	May 1, 2025	Language ModelingLanguage Modelling	—Unverified
A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text Classification	Oct 15, 2021	ClassificationEntity Typing	—Unverified
A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text Classification	Nov 16, 2021	ClassificationEntity Typing	—Unverified
A Multimodal Approach to Device-Directed Speech Detection with Large Language Models	Mar 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Multimodal Automated Interpretability Agent	Apr 22, 2024	Language ModelingLanguage Modelling	—Unverified
A Multimodal Educational Corpus of Oral Courses: Annotation, Analysis and Case Study	May 1, 2020	Language ModelingLanguage Modelling	—Unverified
A Multi-Modal Knowledge-Enhanced Framework for Vessel Trajectory Prediction	Mar 27, 2025	Language ModelingLanguage Modelling	—Unverified
A Multimodal Recaptioning Framework to Account for Perceptual Diversity in Multilingual Vision-Language Modeling	Apr 19, 2025	DiversityImage Retrieval	—Unverified
A Multi-Phase Analysis of Blood Culture Stewardship: Machine Learning Prediction, Expert Recommendation Assessment, and LLM Automation	Apr 9, 2025	DiagnosticLanguage Modeling	—Unverified
A Multi-solution Study on GDPR AI-enabled Completeness Checking of DPAs	Nov 23, 2023	Few-Shot LearningLanguage Modeling	—Unverified
A Multi-Task Text Classification Pipeline with Natural Language Explanations: A User-Centric Evaluation in Sentiment Analysis and Offensive Language Identification in Greek Tweets	Oct 14, 2024	Feature ImportanceLanguage Identification	—Unverified
A multitask transfer learning framework for the prediction of virus-human protein-protein interactions	Nov 26, 2021	Language ModelingLanguage Modelling	—Unverified
An Actor-Critic Approach to Boosting Text-to-SQL Large Language Model	Oct 28, 2024	Language ModelingLanguage Modelling	—Unverified
An Adversarial Multi-Task Learning Method for Chinese Text Correction with Semantic Detection	Jun 28, 2023	Language ModelingLanguage Modelling	—Unverified
An Agentic Framework for Autonomous Metamaterial Modeling and Inverse Design	Jun 7, 2025	Language ModelingLanguage Modelling	—Unverified
AnaLog: Testing Analytical and Deductive Logic Learnability in Language Models	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Analyse des performances de mod\`eles de langage sub-lexicale pour des langues peu-dot\'ees \`a morphologie riche (Performance analysis of sub-word language modeling for under-resourced languages with rich morphology: case study on Swahili and Amharic) [in French]	Jun 1, 2012	Language ModelingLanguage Modelling	—Unverified
Analysing Dropout and Compounding Errors in Neural Language Models	Nov 2, 2018	DecoderLanguage Modelling	—Unverified
Analysing the Effect of Masking Length Distribution of MLM: An Evaluation Framework and Case Study on Chinese MRC Datasets	Sep 29, 2021	Language ModellingMachine Reading Comprehension	—Unverified
Analysing the Effect of Out-of-Domain Data on SMT Systems	Jun 1, 2012	Domain AdaptationLanguage Modelling	—Unverified
Analysis of Argument Structure Constructions in the Large Language Model BERT	Aug 8, 2024	ClusteringLanguage Modeling	—Unverified
Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model	Sep 9, 2023	Fact CheckingFake News Detection	—Unverified
An Analysis of Semantically-Aligned Speech-Text Embeddings	Apr 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Analysis of Plan-based Retrieval for Grounded Text Generation	Aug 20, 2024	Language ModelingLanguage Modelling	—Unverified
Analysis of the User Perception of Chatbots in Education Using A Partial Least Squares Structural Equation Modeling Approach	Nov 7, 2023	EthicsLanguage Modelling	—Unverified
Analysis of Word Embeddings and Sequence Features for Clinical Information Extraction	Dec 1, 2015	Clinical Concept ExtractionLanguage Modelling	—Unverified
Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model	Mar 17, 2025	Continual LearningLanguage Modeling	—Unverified
Analyzing and Mitigating Inconsistency in Discrete Audio Tokens for Neural Codec Language Models	Sep 28, 2024	Audio GenerationLanguage Modeling	—Unverified
Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer with Fine-tuning Slow and Fast	May 19, 2023	Cross-Lingual TransferLanguage Modeling	—Unverified
Analyzing Bias in Swiss Federal Supreme Court Judgments Using Facebook's Holistic Bias Dataset: Implications for Language Model Training	Jan 6, 2025	Decision MakingLanguage Modeling	—Unverified
Analyzing FOMC Minutes: Accuracy and Constraints of Language Models	Apr 20, 2023	Language ModelingLanguage Modelling	—Unverified
以語言模型判斷學習者文句流暢度(Analyzing Learners `Writing Fluency Based on Language Model)[In Chinese]	Oct 1, 2015	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 118 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified