Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15801–15850 of 17610 papers

Title	Date	Tasks	Status
Think Like a Person Before Responding: A Multi-Faceted Evaluation of Persona-Guided LLMs for Countering Hate	Jun 4, 2025	Language ModelingLanguage Modelling	CodeCode Available
Leveraging Web-Crawled Data for High-Quality Fine-Tuning	Aug 15, 2024	Language ModelingLanguage Modelling	CodeCode Available
Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation	May 21, 2025	Language ModelingLanguage Modelling	CodeCode Available
MarSan at SemEval-2022 Task 11: Multilingual complex named entity recognition using T5 and transformer encoder	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text	Feb 18, 2025	Authorship AttributionLanguage Modeling	CodeCode Available
debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias	Oct 17, 2024	BenchmarkingBias Detection	CodeCode Available
Task Loss Estimation for Sequence Prediction	Nov 19, 2015	DecoderLanguage Modeling	CodeCode Available
Simple Unsupervised Summarization by Contextual Matching	Jul 31, 2019	Language ModelingLanguage Modelling	CodeCode Available
Online Detecting LLM-Generated Texts via Sequential Hypothesis Testing by Betting	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
Online Back-Parsing for AMR-to-Text Generation	Oct 9, 2020	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available
Task Refinement Learning for Improved Accuracy and Stability of Unsupervised Domain Adaptation	Jul 1, 2019	Domain AdaptationLanguage Modeling	CodeCode Available
TaskSet: A Dataset of Optimization Tasks	Jan 1, 2021	Diversityimage-classification	CodeCode Available
Dialogue-adaptive Language Model Pre-training From Quality Estimation	Sep 10, 2020	InformativenessLanguage Modeling	CodeCode Available
Transformer-Based Approaches for Automatic Music Transcription	Feb 12, 2021	Language ModellingMusic Transcription	CodeCode Available
Simplifying Scholarly Abstracts for Accessible Digital Libraries	Aug 7, 2024	Language Modelling	CodeCode Available
Mapping and Cleaning Open Commonsense Knowledge Bases with Generative Translation	Jun 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
On Extractive and Abstractive Neural Document Summarization with Transformer Language Models	Sep 7, 2019	Abstractive Text SummarizationDocument Summarization	CodeCode Available
On Effects of Steering Latent Representation for Large Language Model Unlearning	Aug 12, 2024	Language ModelingLanguage Modelling	CodeCode Available
Leveraging Training Data in Few-Shot Prompting for Numerical Reasoning	May 29, 2023	Language ModellingLarge Language Model	CodeCode Available
One2set + Large Language Model: Best Partners for Keyphrase Generation	Oct 4, 2024	Keyphrase GenerationLanguage Modeling	CodeCode Available
MAPLE: Mobile App Prediction Leveraging Large Language Model Embeddings	Sep 15, 2023	Language ModelingLanguage Modelling	CodeCode Available
Third-Party Aligner for Neural Word Alignments	Nov 8, 2022	Language ModelingLanguage Modelling	CodeCode Available
Third-Party Language Model Performance Prediction from Instruction	Mar 19, 2024	Instruction FollowingLanguage Modeling	CodeCode Available
This Land is Your, My Land: Evaluating Geopolitical Biases in Language Models	May 24, 2023	Language ModellingLarge Language Model	CodeCode Available
Leaking LoRa: An Evaluation of Password Leaks and Knowledge Storage in Large Language Models	Mar 29, 2025	Language ModelingLanguage Modelling	CodeCode Available
Leveraging Social Determinants of Health in Alzheimer's Research Using LLM-Augmented Literature Mining and Knowledge Graphs	Oct 4, 2024	Knowledge GraphsLanguage Modeling	CodeCode Available
On-Device Neural Language Model Based Word Prediction	Aug 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform	Mar 13, 2024	Language Model EvaluationLanguage Modelling	CodeCode Available
On-Device LLM for Context-Aware Wi-Fi Roaming	May 7, 2025	Language ModelingLanguage Modelling	CodeCode Available
"I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities	Dec 26, 2024	Domain AdaptationLanguage Modeling	CodeCode Available
Manifold-Preserving Transformers are Effective for Short-Long Range Encoding	Oct 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs	Jan 9, 2024	Language ModellingLarge Language Model	CodeCode Available
Single Headed Attention RNN: Stop Thinking With Your Head	Nov 26, 2019	GPUHyperparameter Optimization	CodeCode Available
MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models	Mar 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking	Apr 18, 2022	cross-modal alignmentDocument AI	CodeCode Available
On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists	Sep 20, 2024	Federated LearningLanguage Modeling	CodeCode Available
Understanding Hidden Computations in Chain-of-Thought Reasoning	Dec 5, 2024	Language ModelingLanguage Modelling	CodeCode Available
Exploring the Value of Pre-trained Language Models for Clinical Named Entity Recognition	Oct 23, 2022	Language Modellingnamed-entity-recognition	CodeCode Available
SJ_AJ@DravidianLangTech-EACL2021: Task-Adaptive Pre-Training of Multilingual BERT models for Offensive Language Identification	Feb 1, 2021	Language IdentificationLanguage Modeling	CodeCode Available
Language Model is a Branch Predictor for Simultaneous Machine Translation	Dec 22, 2023	CPULanguage Modeling	CodeCode Available
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding	Dec 29, 2020	Document Image ClassificationDocument Layout Analysis	CodeCode Available
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training	Apr 16, 2024	Language ModelingLanguage Modelling	CodeCode Available
Teaching Autoregressive Language Models Complex Tasks By Demonstration	Sep 5, 2021	Language ModelingLanguage Modelling	CodeCode Available
Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models	Jun 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access	Jan 18, 2024	Constituency ParsingLanguage Modeling	CodeCode Available
On Architectures for Including Visual Information in Neural Language Models for Image Description	Nov 9, 2019	Image DescriptionLanguage Modeling	CodeCode Available
Teaching Large Language Models to Self-Debug	Apr 11, 2023	Code GenerationLanguage Modeling	CodeCode Available
On Anytime Learning at Macroscale	Jun 17, 2021	Language ModelingLanguage Modelling	CodeCode Available
Skim-Attention: Learning to Focus via Document Layout	Sep 2, 2021	document understandingLanguage Modeling	CodeCode Available
Contextual Knowledge Pursuit for Faithful Visual Synthesis	Nov 29, 2023	Language ModellingRetrieval	CodeCode Available

Show:10 25 50

← PrevPage 317 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified