Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16301–16350 of 17610 papers

Title	Date	Tasks	Status
Document Informed Neural Autoregressive Topic Models with Distributional Prior	Sep 15, 2018	Language ModelingLanguage Modelling	CodeCode Available
A Tool for Generating Exceptional Behavior Tests With Large Language Models	May 28, 2025	Language ModelingLanguage Modelling	CodeCode Available
Autoregressive Pre-Training on Pixels and Texts	Apr 16, 2024	Language ModelingLanguage Modelling	CodeCode Available
DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation	Apr 7, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Tool for Facilitating OCR Postediting in Historical Documents	Apr 23, 2020	Language ModelingLanguage Modelling	CodeCode Available
Doc2Dict: Information Extraction as Text Generation	May 16, 2021	GPULanguage Modeling	CodeCode Available
Figuratively Speaking: Authorship Attribution via Multi-Task Figurative Language Modeling	Jun 12, 2024	Authorship AttributionLanguage Modeling	CodeCode Available
DnDScore: Decontextualization and Decomposition for Factuality Verification in Long-Form Text Generation	Dec 17, 2024	FormLanguage Modeling	CodeCode Available
INSPECT: Intrinsic and Systematic Probing Evaluation for Code Transformers	Dec 8, 2023	Code CompletionDiagnostic	CodeCode Available
DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units	May 4, 2025	Language ModelingLanguage Modelling	CodeCode Available
CLMSM: A Multi-Task Learning Framework for Pre-training on Procedural Text	Oct 22, 2023	Contrastive LearningLanguage Modelling	CodeCode Available
CLIP-PCQA: Exploring Subjective-Aligned Vision-Language Modeling for Point Cloud Quality Assessment	Jan 17, 2025	Language ModelingLanguage Modelling	CodeCode Available
FIBER: Fill-in-the-Blanks as a Challenging Video Understanding Evaluation Framework	Apr 9, 2021	Language ModellingMultiple-choice	CodeCode Available
ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator	May 28, 2024	Information RetrievalLanguage Modelling	CodeCode Available
IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation Identification Through a Prompt-based Few-shot Approach	Sep 8, 2022	Event Causality IdentificationLanguage Modeling	CodeCode Available
DNA Language Model and Interpretable Graph Neural Network Identify Genes and Pathways Involved in Rare Diseases	Oct 20, 2024	Graph Neural NetworkLanguage Modeling	CodeCode Available
CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain	Dec 16, 2021	Clinical Concept ExtractionLanguage Modelling	CodeCode Available
DNAHLM -- DNA sequence and Human Language mixed large language Model	Oct 22, 2024	Language ModelingLanguage Modelling	CodeCode Available
IDIAPers @ Causal News Corpus 2022: Extracting Cause-Effect-Signal Triplets via Pre-trained Autoregressive Language Model	Sep 8, 2022	Event Causality IdentificationLanguage Modeling	CodeCode Available
Diversity-Promoting GAN: A Cross-Entropy Based Generative Adversarial Network for Diversified Text Generation	Oct 1, 2018	Dialogue GenerationDiversity	CodeCode Available
Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing	Jul 8, 2021	Language ModellingSentence	CodeCode Available
Clinical Flair: A Pre-Trained Language Model for Spanish Clinical Natural Language Processing	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval	Apr 5, 2024	DecoderLanguage Modeling	CodeCode Available
A Theoretically Grounded Application of Dropout in Recurrent Neural Networks	Dec 16, 2015	Bayesian InferenceDeep Learning	CodeCode Available
DynaBERT: Dynamic BERT with Adaptive Width and Depth	Apr 8, 2020	Language ModelingLanguage Modelling	CodeCode Available
IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition	Dec 19, 2023	Conditional Text GenerationDecoder	CodeCode Available
A Targeted Assessment of Incremental Processing in Neural LanguageModels and Humans	Jun 6, 2021	Language ModelingLanguage Modelling	CodeCode Available
ClickSight: Interpreting Student Clickstreams to Reveal Insights on Learning Strategies via LLMs	May 21, 2025	Language ModelingLanguage Modelling	CodeCode Available
FinBERT: Financial Sentiment Analysis with Pre-trained Language Models	Aug 27, 2019	Language ModelingLanguage Modelling	CodeCode Available
Improving the Efficiency of Visually Augmented Language Models	Sep 17, 2024	Image GenerationImage Retrieval	CodeCode Available
FiNCAT: Financial Numeral Claim Analysis Tool	Jan 26, 2022	Language ModelingLanguage Modelling	CodeCode Available
Improving the Gating Mechanism of Recurrent Neural Networks	Oct 22, 2019	image-classificationImage Classification	CodeCode Available
Finding a Needle in the Adversarial Haystack: A Targeted Paraphrasing Approach For Uncovering Edge Cases with Minimal Distribution Distortion	Jan 21, 2024	Language ModelingLanguage Modelling	CodeCode Available
Grounding of Textual Phrases in Images by Reconstruction	Nov 12, 2015	Language ModelingLanguage Modelling	CodeCode Available
Diversity Measures: Domain-Independent Proxies for Failure in Language Model Queries	Aug 22, 2023	DiversityLanguage Modeling	CodeCode Available
Distributionally robust self-supervised learning for tabular data	Oct 11, 2024	DecoderLanguage Modeling	CodeCode Available
Dynamic Demonstrations Controller for In-Context Learning	Sep 30, 2023	In-Context LearningLanguage Modeling	CodeCode Available
Dynamic Entity Representations in Neural Language Models	Aug 2, 2017	Coreference ResolutionLanguage Modeling	CodeCode Available
Dynamic Evaluation of Neural Sequence Models	Sep 21, 2017	Language Modelling	CodeCode Available
Dynamic Evaluation of Transformer Language Models	Apr 17, 2019	Language ModelingLanguage Modelling	CodeCode Available
Table2Vec: Neural Word and Entity Embeddings for Table Population and Retrieval	May 31, 2019	Entity EmbeddingsLanguage Modeling	CodeCode Available
Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation	Aug 9, 2015	FormLanguage Modeling	CodeCode Available
Distributionally Robust Language Modeling	Sep 4, 2019	Language ModelingLanguage Modelling	CodeCode Available
Finding Hierarchical Structure in Neural Stacks Using Unsupervised Parsing	Aug 1, 2019	Language ModelingLanguage Modelling	CodeCode Available
A Tailored Pre-Training Model for Task-Oriented Dialog Generation	Apr 24, 2020	Knowledge DistillationLanguage Modeling	CodeCode Available
Instance Regularization for Discriminative Language Model Pre-training	Oct 11, 2022	DenoisingLanguage Modeling	CodeCode Available
Group and Shuffle: Efficient Structured Orthogonal Parametrization	Jun 14, 2024	Computational EfficiencyLanguage Modeling	CodeCode Available
Distributional Discrepancy: A Metric for Unconditional Text Generation	May 4, 2020	DiversityLanguage Modeling	CodeCode Available
iEnhancer-ELM: improve enhancer identification by extracting position-related multiscale contextual information based on enhancer language models	Dec 3, 2022	Language ModellingPosition	CodeCode Available
AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification	Sep 18, 2023	ClassificationKey Information Extraction	CodeCode Available

Show:10 25 50

← PrevPage 327 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified