Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6351–6400 of 17610 papers

Title	Date	Tasks	Status
ATLAS: Learning to Optimally Memorize the Context at Test Time	May 29, 2025	Common Sense ReasoningLanguage Modeling	—Unverified
A Tool for the Automatic Insertion of Diacritics in French (Zodiac : Insertion automatique des signes diacritiques du fran ) [in French]	Jul 1, 2014	Language Modelling	—Unverified
A Topic-Triggered Language Model for Statistical Machine Translation	Oct 1, 2013	Language ModelingLanguage Modelling	—Unverified
A Transfer Learning Based Model for Text Readability Assessment in German	Jul 13, 2022	Language ModelingLanguage Modelling	—Unverified
A Transfer Learning Pipeline for Educational Resource Discovery with Application in Leading Paragraph Generation	Jan 7, 2022	Information RetrievalLanguage Modeling	—Unverified
A Transformer-based Approach for Arabic Offline Handwritten Text Recognition	Jul 27, 2023	Handwriting RecognitionHandwritten Text Recognition	—Unverified
A Transformer-based Math Language Model for Handwritten Math Expression Recognition	Aug 11, 2021	Language ModelingLanguage Modelling	—Unverified
A Transformer-based Neural Language Model that Synthesizes Brain Activation Maps from Free-Form Text Queries	Jul 24, 2022	FormLanguage Modeling	—Unverified
A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation	Oct 15, 2020	Data AugmentationInformation Retrieval	—Unverified
A Tree Transducer Model for Grammatical Error Correction	Aug 1, 2013	Grammatical Error CorrectionGrammatical Error Detection	—Unverified
Attending Self-Attention: A Case Study of Visually Grounded Supervision in Vision-and-Language Transformers	Aug 1, 2021	Language ModelingLanguage Modelling	—Unverified
Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation	Nov 1, 2023	Code CompletionLanguage Modeling	—Unverified
Attention Augmented Convolutional Transformer for Tabular Time-series	Oct 5, 2021	Language ModelingLanguage Modelling	—Unverified
Attention-Based End-to-End Speech Recognition on Voice Search	Jul 22, 2017	DecoderL2 Regularization	—Unverified
Attention-based Memory Selection Recurrent Network for Language Modeling	Nov 26, 2016	Language ModelingLanguage Modelling	—Unverified
Attention-based Speech Enhancement Using Human Quality Perception Modelling	Mar 23, 2023	Language ModelingLanguage Modelling	—Unverified
Tomography of Quantum States from Structured Measurements via quantum-aware transformer	May 9, 2023	Language ModellingQuantum State Tomography	—Unverified
Attention Flows: Analyzing and Comparing Attention Mechanisms in Language Models	Sep 3, 2020	Deep AttentionLanguage Modeling	—Unverified
Attention Fusion: a light yet efficient late fusion mechanism for task adaptation in NLU	Jul 1, 2022	Language Modelling	—Unverified
Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models	May 10, 2025	AllDecoder	—Unverified
AttentionLego: An Open-Source Building Block For Spatially-Scalable Large Language Model Accelerator With Processing-In-Memory Technology	Jan 21, 2024	Language ModelingLanguage Modelling	—Unverified
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation	Jul 18, 2024	Language ModelingLanguage Modelling	—Unverified
Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention	Mar 23, 2024	GPULanguage Modeling	—Unverified
Attention with Intention for a Neural Network Conversation Model	Oct 29, 2015	DecoderLanguage Modeling	—Unverified
Attention with Trained Embeddings Provably Selects Important Tokens	May 22, 2025	Binary ClassificationLanguage Modeling	—Unverified
Attention! You Vision Language Model Could Be Maliciously Manipulated	May 26, 2025	Decision MakingHallucination	—Unverified
Attribution and Alignment: Effects of Local Context Repetition on Utterance Production and Comprehension in Dialogue	Nov 21, 2023	Dialogue GenerationLanguage Modeling	—Unverified
Attributions toward Artificial Agents in a modified Moral Turing Test	Apr 3, 2024	Language Modelling	—Unverified
AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning	May 19, 2023	AttributeContinual Learning	—Unverified
A Two-Stage Framework with Self-Supervised Distillation For Cross-Domain Text Classification	Apr 18, 2023	ClassificationCross-Domain Text Classification	—Unverified
A Two-Stage Proactive Dialogue Generator for Efficient Clinical Information Collection Using Large Language Model	Oct 2, 2024	DiagnosticDialogue Generation	—Unverified
Auctions with LLM Summaries	Apr 11, 2024	Language ModelingLanguage Modelling	—Unverified
Audience size and contextual effects on information density in Twitter conversations	Jun 1, 2015	Language Modelling	—Unverified
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition	Oct 4, 2024	Audio GenerationLanguage Modeling	—Unverified
Audio-attention discriminative language model for ASR rescoring	Dec 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval	Dec 14, 2020	Audio captioningLanguage Modeling	—Unverified
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model	Jan 13, 2025	Audio captioningInstruction Following	—Unverified
Audio Dialogues: Dialogues dataset for audio and music understanding	Apr 11, 2024	Audio captioningAudio Question Answering	—Unverified
Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion	Mar 21, 2025	Active LearningLanguage Modeling	—Unverified
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities	Mar 6, 2025	Audio captioningLanguage Modeling	—Unverified
Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models	Jul 10, 2025	Language ModelingLanguage Modelling	—Unverified
Audio Generation with Multiple Conditional Diffusion Model	Aug 23, 2023	Audio GenerationDiversity	—Unverified
AudioPaLM: A Large Language Model That Can Speak and Listen	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations	May 17, 2024	Audio Signal ProcessingLanguage Modeling	—Unverified
Audio-Visual LLM for Video Understanding	Dec 11, 2023	AudioCapsLanguage Modeling	—Unverified
Aud-Sur: An Audio Analyzer Assistant for Audio Surveillance Applications	Mar 31, 2025	Information RetrievalLanguage Modeling	—Unverified
Augmented Language Models: a Survey	Feb 15, 2023	Language ModelingLanguage Modelling	—Unverified
Augmented Neural Story Generation with Commonsense Inference	Jun 16, 2021	Language ModelingLanguage Modelling	—Unverified
Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data	Jan 16, 2025	Data InteractionDescriptive	—Unverified
Augmenting Autotelic Agents with Large Language Models	May 21, 2023	Common Sense ReasoningLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 128 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified