Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6051–6100 of 17610 papers

Title	Date	Tasks	Status
Answer Extraction by Recursive Parse Tree Descent	Aug 1, 2013	Language ModellingQuestion Answering	—Unverified
Answering real-world clinical questions using large language model based systems	Jun 29, 2024	Language ModelingLanguage Modelling	—Unverified
Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval	Aug 9, 2023	ARCLanguage Modelling	—Unverified
AntiBARTy Diffusion for Property Guided Antibody Design	Sep 22, 2023	DiversityLanguage Modeling	—Unverified
Antibody Representation Learning for Drug Discovery	Oct 5, 2022	Drug DiscoveryLanguage Modelling	—Unverified
Anticipating Future with Large Language Model for Simultaneous Machine Translation	Oct 29, 2024	Language ModelingLanguage Modelling	—Unverified
Anti-stereotypical Predictive Text Suggestions Do Not Reliably Yield Anti-stereotypical Writing	Sep 30, 2024	Language ModelingLanguage Modelling	—Unverified
AntLM: Bridging Causal and Masked Language Models	Dec 4, 2024	Causal Language ModelingDecoder	—Unverified
An Unsupervised Parameter Estimation Algorithm for a Generative Dependency N-gram Language Model	Oct 1, 2013	Language ModelingLanguage Modelling	—Unverified
An Unsupervised Query Rewriting Approach Using N-gram Co-occurrence Statistics to Find Similar Phrases in Large Text Corpora	Sep 1, 2019	Language ModelingLanguage Modelling	—Unverified
An Unsupervised System for Parallel Corpus Filtering	Oct 1, 2018	Domain AdaptationLanguage Modeling	—Unverified
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation	Oct 4, 2024	Language ModellingMultimodal Reasoning	—Unverified
Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector	May 21, 2025	Bias DetectionIn-Context Learning	—Unverified
Any-Shift Prompting for Generalization over Distributions	Feb 15, 2024	Language ModelingLanguage Modelling	—Unverified
Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation	May 2, 2025	Language ModelingLanguage Modelling	—Unverified
AnyTOD: A Programmable Task-Oriented Dialog System	Dec 20, 2022	BenchmarkingLanguage Modeling	—Unverified
Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation	Apr 29, 2024	DiversityImage Generation	—Unverified
AOLO: Analysis and Optimization For Low-Carbon Oriented Wireless Large Language Model Services	Mar 6, 2025	Deep Reinforcement LearningLanguage Modeling	—Unverified
A PAC-Bayesian Approach to Minimum Perplexity Language Modeling	Aug 1, 2014	Language ModelingLanguage Modelling	—Unverified
APAM: Adaptive Pre-training and Adaptive Meta Learning in Language Model for Noisy Labels and Long-tailed Learning	Feb 6, 2023	Contrastive LearningLanguage Modeling	—Unverified
A Parallel Recurrent Neural Network for Language Modeling with POS Tags	Nov 1, 2017	Automatic Speech Recognition (ASR)Clustering	—Unverified
A Partially Rule-Based Approach to AMR Generation	Jun 1, 2019	Abstract Meaning RepresentationLanguage Modeling	—Unverified
APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking	Jun 20, 2024	Information RetrievalLanguage Modeling	—Unverified
A Performance Evaluation of a Quantized Large Language Model on Various Smartphones	Dec 19, 2023	Language ModelingLanguage Modelling	—Unverified
A Personalised Learning Tool for Physics Undergraduate Students Built On a Large Language Model for Symbolic Regression	Jun 17, 2024	Language ModelingLanguage Modelling	—Unverified
A Perspective on Literary Metaphor in the Context of Generative AI	Sep 2, 2024	Language ModelingLanguage Modelling	—Unverified
APGN: Adversarial and Parameter Generation Networks for Multi-Source Cross-Domain Dependency Parsing	Nov 1, 2021	Dependency ParsingLanguage Modeling	—Unverified
A Phrase Orientation Model for Hierarchical Machine Translation	Aug 1, 2013	Language ModellingMachine Translation	—Unverified
A Physics-Inspired Optimizer: Velocity Regularized Adam	May 19, 2025	image-classificationImage Classification	—Unverified
A Pilot Study of GSLM-based Simulation of Foreign Accentuation Only Using Native Speech Corpora	Jul 16, 2024	Language ModelingLanguage Modelling	—Unverified
A Pilot Study on Dialogue-Level Dependency Parsing for Chinese	May 21, 2023	Dependency ParsingLanguage Modeling	—Unverified
A Pipeline Approach to Supervised Error Correction for the QALB-2014 Shared Task	Oct 1, 2014	Grammatical Error CorrectionLanguage Modelling	—Unverified
APIRecX: Cross-Library API Recommendation via Pre-Trained Language Model	Nov 1, 2021	Language ModelingLanguage Modelling	—Unverified
Apolitical Intelligence? Auditing Delphi's responses on controversial political issues in the US	Jun 22, 2023	EthicsLanguage Modeling	—Unverified
APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning	Dec 19, 2022	Data AugmentationLanguage Modeling	—Unverified
A Post-editing Interface for Immediate Adaptation in Statistical Machine Translation	Dec 1, 2016	Domain AdaptationLanguage Modeling	—Unverified
APo-VAE: Text Generation in Hyperbolic Space	Apr 30, 2020	Language ModelingLanguage Modelling	—Unverified
Application-Agnostic Language Modeling for On-Device ASR	May 16, 2023	Automatic Speech RecognitionLanguage Modeling	—Unverified
Application d'un algorithme de traduction statistique \`a la normalisation de textos (Applying a Statistical Machine Translation Algorithm to SMS Text Message Normalization) [in French]	Jun 1, 2012	Language ModellingMachine Translation	—Unverified
Application of Multimodal Large Language Models in Autonomous Driving	Dec 21, 2024	Autonomous DrivingDecision Making	—Unverified
Application of NotebookLM, a Large Language Model with Retrieval-Augmented Generation, for Lung Cancer Staging	Oct 8, 2024	DiagnosticLanguage Modeling	—Unverified
Application of Quantum Tensor Networks for Protein Classification	Mar 11, 2024	Binary ClassificationClassification	—Unverified
Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving	Jan 12, 2025	Autonomous DrivingDecision Making	—Unverified
Applications of Large Language Model Reasoning in Feature Generation	Mar 15, 2025	Computational EfficiencyDomain Adaptation	—Unverified
Novel Preprocessing Technique for Data Embedding in Engineering Code Generation Using Large Language Model	Nov 27, 2023	Code GenerationLanguage Modeling	—Unverified
Applications of Lexicographic Semirings to Problems in Speech and Language Processing	Dec 1, 2014	Language ModellingPart-Of-Speech Tagging	—Unverified
Applying a Generic Sequence-to-Sequence Model for Simple and Effective Keyphrase Generation	Jan 14, 2022	Keyphrase GenerationLanguage Modeling	—Unverified
Applying Collocation Segmentation to the ACL Anthology Reference Corpus	Jul 1, 2012	Language ModellingMachine Translation	—Unverified
Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection	Jun 18, 2024	Language ModelingLanguage Modelling	—Unverified
Applying General Turn-taking Models to Conversational Human-Robot Interaction	Jan 15, 2025	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 122 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified