Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10301–10350 of 17610 papers

Title	Date	Tasks	Status
NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative	Jun 10, 2024	Language ModellingLarge Language Model	—Unverified
Narrow Transformer: StarCoder-Based Java-LM For Desktop	Jul 4, 2024	Language ModelingLanguage Modelling	—Unverified
NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search	May 30, 2021	Language ModellingModel Compression	—Unverified
NASTEA: Investigating Narrative Schemas through Annotated Entities	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified
Natural Language Decomposition and Interpretation of Complex Utterances	May 15, 2023	Language ModelingLanguage Modelling	—Unverified
Natural Language Descriptions for Human Activities in Video Streams	Sep 1, 2017	Action RecognitionLanguage Modeling	—Unverified
Natural Language Generation from Pictographs	Sep 1, 2015	Language ModellingMachine Translation	—Unverified
Natural Language Generation through Character-based RNNs with Finite-state Prior Knowledge	Dec 1, 2016	AttributeLanguage Modelling	—Unverified
Natural Language Instructions for Intuitive Human Interaction with Robotic Assistants in Field Construction Work	Jul 9, 2023	Language ModellingNatural Language Understanding	—Unverified
Natural Language Model Re-usability for Scaling to Different Domains	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified
Natural language processing for clusterization of genes according to their functions	Jul 17, 2022	Dimensionality ReductionLanguage Modeling	—Unverified
Natural Language to Code Generation in Interactive Data Science Notebooks	Dec 19, 2022	Code GenerationDiversity	—Unverified
Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving	May 9, 2025	Autonomous DrivingBackdoor Attack	—Unverified
Naver Labs Europe’s Participation in the Robustness, Chat, and Biomedical Tasks at WMT 2020	Nov 1, 2020	Language ModelingLanguage Modelling	—Unverified
NAVER Machine Translation System for WAT 2015	Oct 1, 2015	Language ModellingMachine Translation	—Unverified
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation	Feb 24, 2024	Decision MakingInstruction Following	—Unverified
Navigating the Dual Facets: A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models	Feb 16, 2024	In-Context LearningLanguage Modeling	—Unverified
Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning	May 1, 2024	Language ModelingLanguage Modelling	—Unverified
Navigating with Graph Representations for Fast and Scalable Decoding of Neural Language Models	Jun 11, 2018	DecoderLanguage Modeling	—Unverified
Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning	Oct 16, 2023	Language ModellingNavigate	—Unverified
N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space	Mar 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
NC-DRE: Leveraging Non-entity Clue Information for Document-level Relation Extraction	Apr 1, 2022	DecoderDocument-level Relation Extraction	—Unverified
Nearest Class-Center Simplification through Intermediate Layers	Jan 21, 2022	Language ModelingLanguage Modelling	—Unverified
Nearest Neighbor Language Models for Stylistic Controllable Generation	Oct 27, 2022	Language ModelingLanguage Modelling	—Unverified
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution	May 29, 2024	Language ModelingLanguage Modelling	—Unverified
Nebula-I: A General Framework for Collaboratively Training Deep Learning Models on Low-Bandwidth Cloud Clusters	May 19, 2022	Cross-Lingual Natural Language InferenceDeep Learning	—Unverified
Needle in the Haystack for Memory Based Large Language Models	Jul 1, 2024	DecoderGPU	—Unverified
Negation: A Pink Elephant in the Large Language Models' Room?	Mar 28, 2025	Language ModelingLanguage Modelling	—Unverified
Negative-Prompt-driven Alignment for Generative Language Model	Oct 16, 2024	Language ModelingLanguage Modelling	—Unverified
Neighborhood Contrastive Learning for Scientific Document Representations with Citation Embeddings	Nov 16, 2021	Contrastive LearningLanguage Modeling	—Unverified
Nemotron-4 15B Technical Report	Feb 26, 2024	Language ModelingLanguage Modelling	—Unverified
Nepali Encoder Transformers: An Analysis of Auto Encoding Transformer Language Models for Nepali Text Classification	Jun 1, 2022	Language ModelingLanguage Modelling	—Unverified
NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging	Dec 1, 2021	Language ModelingLanguage Modelling	—Unverified
Healthcare NER Models Using Language Model Pretraining	Oct 23, 2019	Language ModelingLanguage Modelling	—Unverified
NERVE at ROCLING 2022 Shared Task: A Comparison of Three Named Entity Recognition Frameworks Based on Language Model and Lexicon Approach	Nov 1, 2022	Language ModelingLanguage Modelling	—Unverified
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design	Jul 23, 2024	Formal LogicLanguage Modelling	—Unverified
Network Visualization of ChatGPT Research: a study based on term and keyword co-occurrence network analysis	Apr 1, 2023	Language ModelingLanguage Modelling	—Unverified
Neural and rule-based Finnish NLP models---expectations, experiments and experiences	Jan 1, 2019	Dependency ParsingLanguage Modelling	—Unverified
Neural Architecture Search for Natural Language Understanding	Nov 11, 2019	AvgLanguage Modeling	—Unverified
Neural Borrowing Detection with Monolingual Lexical Models	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Neural Composition: Learning to Generate from Multiple Models	Jul 10, 2020	Language ModelingLanguage Modelling	—Unverified
Neural Data-to-Text Generation Based on Small Datasets: Comparing the Added Value of Two Semi-Supervised Learning Approaches on Top of a Large Language Model	Jul 14, 2022	Data AugmentationData-to-Text Generation	—Unverified
Neural DrugNet	Aug 31, 2018	General ClassificationLanguage Modeling	—Unverified
Neural Embeddings for Text	Aug 17, 2022	Language ModelingLanguage Modelling	—Unverified
Neural-FST Class Language Model for End-to-End Speech Recognition	Jan 28, 2022	Language ModelingLanguage Modelling	—Unverified
Neural Generation for Czech: Data and Baselines	Oct 1, 2019	Data-to-Text GenerationLanguage Modeling	—Unverified
Neural Grammatical Error Correction with Finite State Transducers	Mar 25, 2019	Grammatical Error CorrectionLanguage Modeling	—Unverified
Neural GRANNy at SemEval-2019 Task 2: A combined approach for better modeling of semantic relationships in semantic frame induction	Jun 1, 2019	ClusteringLanguage Modeling	—Unverified
Neural-Guided Program Synthesis of Information Extraction Rules Using Self-Supervision	Oct 1, 2022	Language ModelingLanguage Modelling	—Unverified
Neural Headline Generation on Abstract Meaning Representation	Nov 1, 2016	Abstract Meaning RepresentationDependency Parsing	—Unverified

Show:10 25 50

← PrevPage 207 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified