Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6001–6050 of 17610 papers

Title	Date	Tasks	Status
An Incremental Algorithm for Transition-based CCG Parsing	May 1, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Independence-promoting Loss for Music Generation with Language Models	Jun 4, 2024	Language ModelingLanguage Modelling	—Unverified
An In-depth Survey of Large Language Model-based Artificial Intelligence Agents	Sep 23, 2023	AI AgentLanguage Modeling	—Unverified
An Infinite Hierarchical Bayesian Model of Phrasal Translation	Aug 1, 2013	Language ModellingMachine Translation	—Unverified
An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws	Dec 2, 2022	Language Modelling	—Unverified
Self-Programming Artificial Intelligence Using Code-Generating Language Models	Apr 30, 2022	Code GenerationLanguage Modeling	—Unverified
An integrated language-vision foundation model for conversational diagnostics and triaging in primary eye care	May 13, 2025	DiagnosticLanguage Modeling	—Unverified
Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition	Dec 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Interactive Agent Foundation Model	Feb 8, 2024	Language ModelingLanguage Modelling	—Unverified
An Introduction to Vision-Language Modeling	May 27, 2024	Language ModelingLanguage Modelling	—Unverified
An Inquiry into Datacenter TCO for LLM Inference with FP8	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified
An Investigation of Hybrid architectures for Low Resource Multilingual Speech Recognition system in Indian context	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An investigation of phone-based subword units for end-to-end speech recognition	Apr 8, 2020	DecoderLanguage Modeling	—Unverified
An Investigation of Transfer Learning-Based Sentiment Analysis in Japanese	May 23, 2019	ClassificationGeneral Classification	—Unverified
An Iterative Algorithm for Rescaled Hyperbolic Functions Regression	May 1, 2023	In-Context LearningLanguage Modeling	—Unverified
An Iterative Polishing Framework based on Quality Aware Masked Language Model for Chinese Poetry Generation	Nov 29, 2019	DecoderLanguage Modeling	—Unverified
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations	May 26, 2025	DenoisingLanguage Modeling	—Unverified
An LDA-based Topic Selection Approach to Language Model Adaptation for Handwritten Text Recognition	Sep 1, 2015	Domain AdaptationHandwritten Text Recognition	—Unverified
An LLM Benchmark for Addressee Recognition in Multi-modal Multi-party Dialogue	Jan 28, 2025	Language ModelingLanguage Modelling	—Unverified
An LLM-Driven Multi-Agent Debate System for Mendelian Diseases	Apr 10, 2025	DiagnosticLanguage Modeling	—Unverified
An LLM-Guided Tutoring System for Social Skills Training	Jan 16, 2025	Language ModelingLanguage Modelling	—Unverified
An LP-based hyperparameter optimization model for language modeling	Mar 29, 2018	Hyperparameter OptimizationLanguage Modeling	—Unverified
An MT Error-Driven Discriminative Word Lexicon using Sentence Structure Features	Aug 1, 2013	Language ModellingMachine Translation	—Unverified
ANNA: Enhanced Language Representation for Question Answering	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
ANNA: Enhanced Language Representation for Question Answering	Mar 28, 2022	Language ModelingLanguage Modelling	—Unverified
ANNA”:" Enhanced Language Representation for Question Answering	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
AnnotatedTables: A Large Tabular Dataset with Language Model Annotations	Jun 24, 2024	AutoMLFew-Shot Learning	—Unverified
A No-Code Low-Code Paradigm for Authoring Business Automations Using Natural Language	Jul 15, 2022	Language ModelingLanguage Modelling	—Unverified
Anomaly Detection by Adapting a pre-trained Vision Language Model	Mar 14, 2024	Anomaly DetectionLanguage Modeling	—Unverified
An Omni-Font Gurmukhi to Shahmukhi Transliteration System	Dec 1, 2012	Language ModellingTransliteration	—Unverified
An Online Algorithm for Learning over Constrained Latent Representations using Multiple Views	Oct 1, 2013	ChunkingDomain Adaptation	—Unverified
An Online Attention-based Model for Speech Recognition	Nov 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards the Anonymization of the Language Modeling	Jan 5, 2025	Causal Language ModelingLanguage Modeling	—Unverified
A Novel Approach to Eliminating Hallucinations in Large Language Model-Assisted Causal Discovery	Nov 16, 2024	Causal DiscoveryHallucination	—Unverified
A novel approach to measuring the scope of patent claims based on probabilities obtained from (large) language models	Sep 17, 2023	Language ModellingLarge Language Model	—Unverified
A Novel Counterfactual Data Augmentation Method for Aspect-Based Sentiment Analysis	Jun 20, 2023	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions	Jun 4, 2025	Data AugmentationDiversity	—Unverified
A Novel DeBERTa-based Model for Financial Question Answering Task	Jul 12, 2022	Language ModelingLanguage Modelling	—Unverified
A Novel Framework for Recurrent Neural Networks with Enhancing Information Processing and Transmission between Units	Jun 2, 2018	General Classificationimage-classification	—Unverified
A Novel Joint Framework for Multiple Chinese Events Extraction	Oct 1, 2020	Event ExtractionLanguage Modeling	—Unverified
A novel molecule generative model of VAE combined with Transformer for unseen structure generation	Feb 19, 2024	Drug DiscoveryLanguage Modelling	—Unverified
A Novel Multi-Task Learning Method for Symbolic Music Emotion Recognition	Jan 15, 2022	Emotion RecognitionLanguage Modeling	—Unverified
A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks	Jul 24, 2024	Active LearningDomain Adaptation	—Unverified
A Novel Way of Identifying Cyber Predators	Dec 11, 2017	General ClassificationLanguage Modeling	—Unverified
An Overview of Distant Supervision for Relation Extraction with a Focus on Denoising and Pre-training Methods	Jul 17, 2022	DenoisingKnowledge Graph Completion	—Unverified
An overview of open source Deep Learning-based libraries for Neuroscience	Dec 19, 2022	Deep LearningLanguage Modelling	—Unverified
An Overview Of Temporal Commonsense Reasoning and Acquisition	Jul 28, 2023	Common Sense ReasoningLanguage Modelling	—Unverified
An Overview on Language Models: Recent Developments and Outlook	Mar 10, 2023	Language ModelingLanguage Modelling	—Unverified
ANPMI: Assessing the True Comprehension Capabilities of LLMs for Multiple Choice Questions	Feb 26, 2025	Language ModelingLanguage Modelling	—Unverified
Answer Candidate Type Selection: Text-to-Text Language Model for Closed Book Question Answering Meets Knowledge Graphs	Oct 10, 2023	Graph Question AnsweringKnowledge Graphs	—Unverified

Show:10 25 50

← PrevPage 121 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified