Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9701–9750 of 17610 papers

Title	Date	Tasks	Status
Make Your AUV Adaptive: An Environment-Aware Reinforcement Learning Framework For Underwater Tasks	Jun 18, 2025	Decision MakingLanguage Modeling	—Unverified
Making a Computational Attorney	Mar 7, 2023	Language ModelingLanguage Modelling	—Unverified
Making Convolutional Networks Recurrent for Visual Sequence Learning	Jun 1, 2018	Action RecognitionFace Alignment	—Unverified
Making first order linear logic a generating grammar	Jun 17, 2022	Language ModelingLanguage Modelling	—Unverified
Making Large Language Models Better Knowledge Miners for Online Marketing with Progressive Prompting Augmentation	Dec 8, 2023	graph constructionLanguage Modelling	—Unverified
Making the Most Out of the Limited Context Length: Predictive Power Varies with Clinical Note Type and Note Section	Jul 13, 2023	Language ModelingLanguage Modelling	—Unverified
Making Your Dreams A Reality: Decoding the Dreams into a Coherent Video Story from fMRI Signals	Jan 16, 2025	Language ModelingLanguage Modelling	—Unverified
MaLA-500: Massive Language Adaptation of Large Language Models	Jan 24, 2024	In-Context LearningLanguage Modeling	—Unverified
mALBERT: Is a Compact Multilingual BERT Model Still Worth It?	Mar 27, 2024	Language ModelingLanguage Modelling	—Unverified
Malicious and Unintentional Disclosure Risks in Large Language Models for Code Generation	Mar 27, 2025	Code GenerationLanguage Modeling	—Unverified
Malicious Path Manipulations via Exploitation of Representation Vulnerabilities of Vision-Language Navigation Systems	Jul 10, 2024	Language ModelingLanguage Modelling	—Unverified
MaLLaM -- Malaysia Large Language Model	Jan 26, 2024	Language ModelingLanguage Modelling	—Unverified
MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data	Jun 15, 2024	Generative Adversarial NetworkLanguage Modeling	—Unverified
MALM: Mixing Augmented Language Modeling for Zero-Shot Machine Translation	Oct 1, 2022	Data AugmentationLanguage Modeling	—Unverified
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation	Nov 26, 2024	Code GenerationIn-Context Learning	—Unverified
MambaByte: Token-free Selective State Space Model	Jan 24, 2024	Computational EfficiencyInductive Bias	—Unverified
MammothModa: Multi-Modal Large Language Model	Jun 26, 2024	Language ModelingLanguage Modelling	—Unverified
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation	Dec 24, 2023	Common Sense ReasoningLanguage Modeling	—Unverified
Manipulating the Label Space for In-Context Classification	Dec 1, 2023	ClassificationContrastive Learning	—Unverified
Manipulation and the AI Act: Large Language Model Chatbots and the Danger of Mirrors	Mar 24, 2025	ChatbotLanguage Modeling	—Unverified
MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End Language Modeling	Dec 14, 2022	Language ModelingLanguage Modelling	—Unverified
MANTIS at TSAR-2022 Shared Task: Improved Unsupervised Lexical Simplification with Pretrained Encoders	Dec 19, 2022	Language ModelingLanguage Modelling	—Unverified
Many-Shot Regurgitation (MSR) Prompting	May 13, 2024	ArticlesInference Attack	—Unverified
Maoqin @ DravidianLangTech-EACL2021: The Application of Transformer-Based Model	Apr 1, 2021	Language ModelingLanguage Modelling	—Unverified
MapColorAI: Designing Contextually Relevant Choropleth Map Color Schemes Using a Large Language Model	Jan 22, 2025	Language ModelingLanguage Modelling	—Unverified
MAPLE: A Framework for Active Preference Learning Guided by Large Language Models	Dec 10, 2024	Active LearningLanguage Modeling	—Unverified
MAPLE: Enhancing Review Generation with Multi-Aspect Prompt LEarning in Explainable Recommendation	Aug 19, 2024	DiversityExplainable Recommendation	—Unverified
MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization	Jul 4, 2024	Language ModelingLanguage Modelling	—Unverified
Mapping Brains with Language Models: A Survey	Jun 8, 2023	Language ModelingLanguage Modelling	—Unverified
Mapping High-level Semantic Regions in Indoor Environments without Object Recognition	Mar 11, 2024	Graph GenerationLanguage Modeling	—Unverified
Mapping Local News Coverage: Precise location extraction in textual news content using fine-tuned BERT based language model	Nov 1, 2020	ArticlesLanguage Modeling	—Unverified
Mapping Researcher Activity based on Publication Data by means of Transformers	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified
Mapping Rules for Building a Tunisian Dialect Lexicon and Generating Corpora	Oct 1, 2013	Language ModellingSpeech Recognition	—Unverified
Mapping the Timescale Organization of Neural Language Models	Dec 12, 2020	Language ModellingSentence	—Unverified
MapQA: Open-domain Geospatial Question Answering on Map Data	Mar 10, 2025	DiversityLanguage Modeling	—Unverified
MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy	Nov 15, 2023	Instruction FollowingLanguage Modeling	—Unverified
MARCO: Multi-Agent Real-time Chat Orchestration	Oct 29, 2024	HallucinationLanguage Modeling	—Unverified
Marconi: Prefix Caching for the Era of Hybrid LLMs	Nov 28, 2024	Language ModelingLanguage Modelling	—Unverified
Maritime Mission Planning for Unmanned Surface Vessel using Large Language Model	Mar 15, 2025	Language ModelingLanguage Modelling	—Unverified
Markov Constraint as Large Language Model Surrogate	Jun 11, 2024	Language ModelingLanguage Modelling	—Unverified
MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity	Nov 14, 2024	Language ModelingLanguage Modelling	—Unverified
MARS6: A Small and Robust Hierarchical-Codec Text-to-Speech Model	Jan 10, 2025	DecoderLanguage Modelling	—Unverified
"Mask and Infill" : Applying Masked Language Model to Sentiment Transfer	Aug 21, 2019	AttributeDecoder	—Unverified
Mask and Regenerate: A Classifier-based Approach for Unpaired Sentiment Transformation of Reviews for Electronic Commerce Websites.	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
MAS-KCL: Knowledge component graph structure learning with large language model-based agentic workflow	May 20, 2025	Graph structure learningLanguage Modeling	—Unverified
Masked Adversarial Generation for Neural Machine Translation	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Masked Audio Text Encoders are Effective Multi-Modal Rescorers	May 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Masked Clinical Modelling: A Framework for Synthetic and Augmented Survival Data Generation	Oct 22, 2024	Data AugmentationLanguage Modelling	—Unverified
Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling	Sep 4, 2024	Language ModelingLanguage Modelling	—Unverified
Masked ELMo: An evolution of ELMo towards fully contextual RNN language models	Oct 8, 2020	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 195 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified