Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12151–12200 of 17610 papers

Title	Date	Tasks	Status
Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection	Jan 25, 2022	ArticlesLanguage Modeling	—Unverified
Who's Harry Potter? Approximate Unlearning in LLMs	Oct 3, 2023	ARCGPU	—Unverified
Zero-Shot Learning of Language Models for Describing Human Actions Based on Semantic Compositionality of Actions	Dec 1, 2014	Language ModellingMachine Translation	—Unverified
Who's to say what's funny? A computer using Language Models and Deep Learning, That's Who!	May 29, 2017	Language ModelingLanguage Modelling	—Unverified
Who Writes the Review, Human or AI?	May 30, 2024	Language ModelingLanguage Modelling	—Unverified
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore	May 7, 2024	Language ModelingLanguage Modelling	—Unverified
Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking	Feb 12, 2024	Language ModellingLarge Language Model	—Unverified
Why Are Positional Encodings Nonessential for Deep Autoregressive Transformers? Revisiting a Petroglyph	Dec 31, 2024	Language ModelingLanguage Modelling	—Unverified
Unsupervised Bias Detection in College Student Newspapers	Sep 11, 2023	Bias DetectionLanguage Modeling	—Unverified
Why do LLaVA Vision-Language Models Reply to Images in English?	Jul 2, 2024	Language ModelingLanguage Modelling	—Unverified
Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck	Apr 11, 2024	Language ModelingLanguage Modelling	—Unverified
Why Gradients Rapidly Increase Near the End of Training	Jun 2, 2025	Language ModelingLanguage Modelling	—Unverified
Unsupervised ASR via Cross-Lingual Pseudo-Labeling	May 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation	May 19, 2025	Knowledge DistillationLanguage Modeling	—Unverified
Why LLMs Cannot Think and How to Fix It	Mar 12, 2025	Language ModelingLanguage Modelling	—Unverified
Why LLMs Hallucinate, and How to Get (Evidential) Closure: Perceptual, Intensional, and Extensional Learning for Faithful Natural Language Generation	Oct 23, 2023	Language ModelingLanguage Modelling	—Unverified
Why Neural Translations are the Right Length	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified
Why Not Grab a Free Lunch? Mining Large Corpora for Parallel Sentences to Improve Translation Modeling	Jun 1, 2012	Language ModellingMachine Translation	—Unverified
Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models	Jun 13, 2024	Language ModellingLarge Language Model	—Unverified
Why Solving Multi-agent Path Finding with Large Language Model has not Succeeded Yet	Jan 8, 2024	Language ModelingLanguage Modelling	—Unverified
Unsupervised Aspect-Level Sentiment Controllable Style Transfer	Dec 1, 2020	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
Why Would You Suggest That? Human Trust in Language Model Responses	Jun 4, 2024	Decision MakingHeadline Generation	—Unverified
Zero-Shot Listwise Document Reranking with a Large Language Model	May 3, 2023	Language ModelingLanguage Modelling	—Unverified
Wiki-40B: Multilingual Language Model Dataset	May 1, 2020	Causal Language ModelingLanguage Modeling	—Unverified
Unsupervised Aspect-Based Multi-Document Abstractive Summarization	Nov 1, 2019	Abstractive Text SummarizationClustering	—Unverified
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia	Jun 19, 2024	Language ModellingRAG	—Unverified
Unsupervised and Few-shot Parsing from Pretrained Language Models	Jun 10, 2022	Language Modelling	—Unverified
Unsupervised Adverbial Identification in Modern Chinese Literature	Nov 1, 2021	Language ModelingLanguage Modelling	—Unverified
Unsupervised Adaptation for Statistical Machine Translation	Jun 1, 2014	Domain AdaptationLanguage Modelling	—Unverified
Unsupervised Acquisition of Discrete Grammatical Categories	Mar 24, 2025	Language AcquisitionLanguage Modeling	—Unverified
Will Affective Computing Emerge from Foundation Models and General AI? A First Evaluation on ChatGPT	Mar 3, 2023	Language ModelingLanguage Modelling	—Unverified
Will GPT-4 Run DOOM?	Mar 8, 2024	Language ModelingLanguage Modelling	—Unverified
A Survey on Large Language Model-empowered Autonomous Driving	Sep 21, 2024	Autonomous DrivingLanguage Modeling	—Unverified
Unsupervised Accent Adaptation Through Masked Language Model Correction Of Discrete Self-Supervised Speech Units	Sep 25, 2023	Accented Speech RecognitionLanguage Modeling	—Unverified
Unseen Attack Detection in Software-Defined Networking Using a BERT-Based Large Language Model	Dec 9, 2024	feature selectionLanguage Modeling	—Unverified
Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance	Mar 10, 2024	Language ModelingLanguage Modelling	—Unverified
Zero-shot Load Forecasting for Integrated Energy Systems: A Large Language Model-based Framework with Multi-task Learning	Feb 24, 2025	Language ModelingLanguage Modelling	—Unverified
Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language Representation Learning with Pre-trained Sequence-to-Sequence Model	Jun 24, 2021	DecoderLanguage Modeling	—Unverified
Winning Solution For Meta KDD Cup' 24	Sep 13, 2024	HallucinationKnowledge Graphs	—Unverified
WinoViz: Probing Visual Properties of Objects Under Different States	Feb 21, 2024	Language Modelling	—Unverified
Unpacking the Interdependent Systems of Discrimination: Ableist Bias in NLP Systems through an Intersectional Lens	Oct 1, 2021	Language ModelingLanguage Modelling	—Unverified
Unpacking Large Language Models with Conceptual Consistency	Sep 29, 2022	Language ModellingLarge Language Model	—Unverified
Wireless-Friendly Window Position Optimization for RIS-Aided Outdoor-to-Indoor Networks based on Multi-Modal Large Language Model	Oct 7, 2024	Language ModelingLanguage Modelling	—Unverified
Unnatural language processing: How do language models handle machine-generated prompts?	Oct 24, 2023	Language ModelingLanguage Modelling	—Unverified
WISER: A Semantic Approach for Expert Finding in Academia based on Entity Linking	May 10, 2018	Entity LinkingLanguage Modeling	—Unverified
Unmasking the Shadows: Pinpoint the Implementations of Anti-Dynamic Analysis Techniques in Malware Using LLM	Nov 8, 2024	Language ModelingLanguage Modelling	—Unverified
Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems	Jun 20, 2024	Language ModellingText to SQL	—Unverified
Witscript 2: A System for Generating Improvised Jokes Without Wordplay	Feb 3, 2023	ChatbotCommon Sense Reasoning	—Unverified
Witscript: A System for Generating Improvised Jokes in a Conversation	Feb 3, 2023	ChatbotLanguage Modeling	—Unverified
WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Training	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 244 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified