Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9751–9800 of 17610 papers

Title	Date	Tasks	Status
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little	Apr 14, 2021	Language ModelingLanguage Modelling	—Unverified
Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis	May 31, 2024	Density EstimationImputation	—Unverified
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers	Jun 5, 2020	Language ModelingLanguage Modelling	—Unverified
Masked Reasoner at SemEval-2020 Task 4: Fine-Tuning RoBERTa for Commonsense Reasoning	Dec 1, 2020	Language ModelingLanguage Modelling	—Unverified
Masked Vision and Language Modeling for Multi-modal Representation Learning	Aug 3, 2022	cross-modal alignmentLanguage Modeling	—Unverified
MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification	May 24, 2022	Language ModelingLanguage Modelling	—Unverified
Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask Annotations	Mar 29, 2023	Image CaptioningInstance Segmentation	—Unverified
Masking Morphosyntactic Categories to Evaluate Salience for Schizophrenia Diagnosis	Jul 1, 2022	ClassificationLanguage Modeling	—Unverified
MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining	Jun 1, 2022	DecoderLanguage Modeling	—Unverified
MaskSR: Masked Language Model for Full-band Speech Restoration	Jun 4, 2024	Language ModelingLanguage Modelling	—Unverified
Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR with Internal Language Model Estimation	May 5, 2023	DecoderDomain Adaptation	—Unverified
MasonNLP+ at SemEval-2023 Task 8: Extracting Medical Questions, Experiences and Claims from Social Media using Knowledge-Augmented Pre-trained Language Models	Apr 26, 2023	Language ModelingLanguage Modelling	—Unverified
Massively Multilingual Shallow Fusion with Large Language Models	Feb 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching	Jun 3, 2025	Data AugmentationInstruction Following	—Unverified
Mastering Board Games by External and Internal Planning with Language Models	Dec 2, 2024	Board GamesLanguage Modeling	—Unverified
MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering	Dec 19, 2022	Chart Question AnsweringData Summarization	—Unverified
MatChat: A Large Language Model and Application Service Platform for Materials Science	Oct 11, 2023	Language ModelingLanguage Modelling	—Unverified
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching	Oct 31, 2024	Data IntegrationLanguage Modeling	—Unverified
(N,K)-Puzzle: A Cost-Efficient Testbed for Benchmarking Reinforcement Learning Algorithms in Generative Language Model	Mar 11, 2024	BenchmarkingLanguage Modeling	—Unverified
Mathematical Information Retrieval based on Type Embeddings and Query Expansion	Dec 1, 2016	Information RetrievalLanguage Modelling	—Unverified
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model	Sep 10, 2024	DiversityLanguage Modeling	—Unverified
MATHion: Solving Math Word Problems with Logically Consistent Problems	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
Math Multiple Choice Question Generation via Human-Large Language Model Collaboration	May 1, 2024	Language ModelingLanguage Modelling	—Unverified
math-PVS: A Large Language Model Framework to Map Scientific Publications to PVS Theories	Oct 25, 2023	Automated Theorem ProvingLanguage Modeling	—Unverified
E^2CFD: Towards Effective and Efficient Cost Function Design for Safe Reinforcement Learning via Large Language Model	Jul 8, 2024	Language ModelingLanguage Modelling	—Unverified
Matrix Is All You Need	May 11, 2025	AllGPU	—Unverified
Matryoshka Multimodal Models	May 27, 2024	Language ModellingLarge Language Model	—Unverified
MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources	Jun 7, 2024	Language ModelingLanguage Modelling	—Unverified
mattica@SMM4H’22: Leveraging sentiment for stance & premise joint learning	Oct 1, 2022	Language ModelingLanguage Modelling	—Unverified
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
MAVias: Mitigate any Visual Bias	Dec 9, 2024	Language ModelingLanguage Modelling	—Unverified
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model	Apr 14, 2025	Computational EfficiencyLanguage Modeling	—Unverified
Maximal Multiverse Learning for Promoting Cross-Task Generalization of Fine-Tuned Language Models	Apr 1, 2021	Language ModelingLanguage Modelling	—Unverified
Maximizing Efficiency of Language Model Pre-training for Learning Representation	Oct 13, 2021	Language ModelingLanguage Modelling	—Unverified
Maximizing Penetration Testing Success with Effective Reconnaissance Techniques using ChatGPT	Mar 20, 2023	ChatbotLanguage Modelling	—Unverified
Max-Margin Incremental CCG Parsing	Jul 1, 2020	Language ModellingSentence	—Unverified
MaxUp: Lightweight Adversarial Training With Data Augmentation Improves Neural Network Training	Jun 19, 2021	Data Augmentationimage-classification	—Unverified
Exploring the Maze of Multilingual Modeling	Oct 9, 2023	Language ModellingModel Selection	—Unverified
mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning	Apr 2, 2024	Chart Question AnsweringLanguage Modeling	—Unverified
mCLM: A Function-Infused and Synthesis-Friendly Modular Chemical Language Model	May 18, 2025	Language ModelingLanguage Modelling	—Unverified
MCSD: An Efficient Language Model with Diverse Fusion	Jun 18, 2024	GPULanguage Modeling	—Unverified
MDNet: A Semantically and Visually Interpretable Medical Image Diagnosis Network	Jul 8, 2017	DiagnosticLanguage Modeling	—Unverified
MDSF: Context-Aware Multi-Dimensional Data Storytelling Framework based on Large language Model	Jan 2, 2025	DescriptiveLanguage Modeling	—Unverified
Mean-Squared Accuracy of Good-Turing Estimator	Apr 14, 2021	Language ModelingLanguage Modelling	—Unverified
Measuring an artificial intelligence agent's trust in humans using machine incentives	Dec 27, 2022	AI AgentLanguage Modelling	—Unverified
Measuring and Improving BERT's Mathematical Abilities by Predicting the Order of Reasoning	Jun 7, 2021	Language ModelingLanguage Modelling	—Unverified
Measuring and Improving BERT's Mathematical Abilities by Predicting the Order of Reasoning.	Aug 1, 2021	Language ModelingLanguage Modelling	—Unverified
The BS-meter: A ChatGPT-Trained Instrument to Detect Sloppy Language-Games	Nov 22, 2024	Language ModelingLanguage Modelling	—Unverified
Measuring Distributional Shifts in Text: The Advantage of Language Model-Based Embeddings	Dec 4, 2023	Language ModelingLanguage Modelling	—Unverified
Measuring Feature Sparsity in Language Models	Oct 11, 2023	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 196 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified