Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9951–10000 of 17610 papers

Title	Date	Tasks	Status
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified
Mitigating harm in language models with conditional-likelihood filtration	Aug 4, 2021	Language ModelingLanguage Modelling	—Unverified
Mitigating Image Captioning Hallucinations in Vision-Language Models	May 6, 2025	HallucinationHallucination Evaluation	—Unverified
Mitigating Knowledge Conflicts in Language Model-Driven Question Answering	Nov 18, 2024	Document SummarizationHallucination	—Unverified
Mitigating Large Language Model Hallucinations via Autonomous Knowledge Graph-based Retrofitting	Nov 22, 2023	HallucinationLanguage Modeling	—Unverified
Mitigating Large Language Model Hallucination with Faithful Finetuning	Jun 17, 2024	HallucinationLanguage Modeling	—Unverified
Mitigating LLM Hallucinations via Conformal Abstention	Apr 4, 2024	Conformal PredictionGenerative Question Answering	—Unverified
Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals	Dec 1, 2023	Image SegmentationLanguage Modeling	—Unverified
Mitigating the Linguistic Gap with Phonemic Representations for Robust Cross-lingual Transfer	Feb 22, 2024	Cross-Lingual TransferLanguage Modelling	—Unverified
Mix and Match: Learning-free Controllable Text Generationusing Energy Language Models	Nov 16, 2021	AttributeLanguage Modeling	—Unverified
Mix and Match: Learning-free Controllable Text Generation using Energy Language Models	Jan 16, 2022	AttributeLanguage Modeling	—Unverified
Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging	Feb 8, 2025	Language ModelingLanguage Modelling	—Unverified
Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi	Sep 19, 2023	Language ModelingLanguage Modelling	—Unverified
Mixed Distillation Helps Smaller Language Model Better Reasoning	Dec 17, 2023	Knowledge DistillationLanguage Modeling	—Unverified
Mixed Feelings: Natural Text Generation with Variable, Coexistent Affective Categories	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Mixed Membership Word Embeddings for Computational Social Science	May 20, 2017	ArticlesLanguage Modeling	—Unverified
Mixer Metaphors: audio interfaces for non-musical applications	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified
Mixing Multiple Translation Models in Statistical Machine Translation	Jul 1, 2012	Domain AdaptationLanguage Modelling	—Unverified
MixMin: Finding Data Mixtures via Convex Minimization	Feb 14, 2025	ARCLanguage Modeling	—Unverified
Mix of Experts Language Model for Named Entity Recognition	Apr 30, 2024	Language ModelingLanguage Modelling	—Unverified
A Guide To Effectively Leveraging LLMs for Low-Resource Text Summarization: Data Augmentation and Semi-supervised Approaches	Jul 10, 2024	Abstractive Text SummarizationData Augmentation	—Unverified
Mixtape: Breaking the Softmax Bottleneck Efficiently	Dec 1, 2019	Language ModelingLanguage Modelling	—Unverified
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference	Nov 27, 2024	GSM8KLanguage Modeling	—Unverified
Mixture of Experts in Large Language Models	Jul 15, 2025	DiversityLanguage Modeling	—Unverified
Mixture of Latent Experts Using Tensor Products	May 26, 2024	Language ModellingMulti-Task Learning	—Unverified
Mixture of Experts with Mixture of Precisions for Tuning Quality of Service	Jul 19, 2024	CPUGPU	—Unverified
Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions	Apr 29, 2024	Language ModelingLanguage Modelling	—Unverified
Getting MoRE out of Mixture of Language Model Reasoning Experts	May 24, 2023	Answer SelectionLanguage Modeling	—Unverified
Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding	Mar 17, 2024	Few-Shot LearningLanguage Modelling	—Unverified
Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization	Jun 16, 2025	Causal Language ModelingInstruction Following	—Unverified
MLAR: Multi-layer Large Language Model-based Robotic Process Automation Applicant Tracking	Jul 14, 2025	BenchmarkingLanguage Modeling	—Unverified
MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling	Sep 24, 2021	Image ReconstructionLanguage Modeling	—Unverified
MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models	Jul 3, 2024	Extractive Question-AnsweringKnowledge Distillation	—Unverified
M-LLM Based Video Frame Selection for Efficient Video Understanding	Feb 27, 2025	EgoSchemaLanguage Modeling	—Unverified
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning	Sep 9, 2024	Federated LearningImage Captioning	—Unverified
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified
MLLMReID: Multimodal Large Language Model-based Person Re-identification	Jan 24, 2024	Language ModelingLanguage Modelling	—Unverified
ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2	Jul 29, 2024	Language ModelingLanguage Modelling	—Unverified
MLMLM: Link Prediction with Mean Likelihood Masked Language Model	Sep 15, 2020	Language ModelingLanguage Modelling	—Unverified
MLorc: Momentum Low-rank Compression for Large Language Model Adaptation	Jun 2, 2025	Language ModelingLanguage Modelling	—Unverified
MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding	Jun 10, 2025	Language ModelingLanguage Modelling	—Unverified
MMAC-Copilot: Multi-modal Agent Collaboration Operating Copilot	Apr 28, 2024	HallucinationLanguage Modeling	—Unverified
MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning	Dec 14, 2023	DecoderLanguage Modelling	—Unverified
MMCR: Advancing Visual Language Model in Multimodal Multi-Turn Contextual Reasoning	Mar 24, 2025	DiagnosticLanguage Modeling	—Unverified
MMDS: A Multimodal Medical Diagnosis System Integrating Image Analysis and Knowledge-based Departmental Consultation	Oct 20, 2024	Emotion RecognitionFacial Emotion Recognition	—Unverified
Multilingual Molecular Representation Learning via Contrastive Pre-training	Sep 18, 2021	Contrastive LearningLanguage Modeling	—Unverified
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation	Mar 13, 2025	Language Model EvaluationLanguage Modeling	—Unverified
MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal	Feb 17, 2024	Language ModelingLanguage Modelling	—Unverified
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models	Jul 15, 2024	Language ModelingLanguage Modelling	—Unverified
MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing	May 22, 2025	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 200 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified