Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15551–15600 of 17610 papers

Title	Date	Tasks	Status
A Transformer-based Neural Language Model that Synthesizes Brain Activation Maps from Free-Form Text Queries	Jul 24, 2022	FormLanguage Modeling	—Unverified
A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation	Oct 15, 2020	Data AugmentationInformation Retrieval	—Unverified
A Tree Transducer Model for Grammatical Error Correction	Aug 1, 2013	Grammatical Error CorrectionGrammatical Error Detection	—Unverified
Attending Self-Attention: A Case Study of Visually Grounded Supervision in Vision-and-Language Transformers	Aug 1, 2021	Language ModelingLanguage Modelling	—Unverified
Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation	Nov 1, 2023	Code CompletionLanguage Modeling	—Unverified
Attention Augmented Convolutional Transformer for Tabular Time-series	Oct 5, 2021	Language ModelingLanguage Modelling	—Unverified
Attention-Based End-to-End Speech Recognition on Voice Search	Jul 22, 2017	DecoderL2 Regularization	—Unverified
Attention-based Memory Selection Recurrent Network for Language Modeling	Nov 26, 2016	Language ModelingLanguage Modelling	—Unverified
Attention-based Speech Enhancement Using Human Quality Perception Modelling	Mar 23, 2023	Language ModelingLanguage Modelling	—Unverified
Tomography of Quantum States from Structured Measurements via quantum-aware transformer	May 9, 2023	Language ModellingQuantum State Tomography	—Unverified
Attention Flows: Analyzing and Comparing Attention Mechanisms in Language Models	Sep 3, 2020	Deep AttentionLanguage Modeling	—Unverified
Attention Fusion: a light yet efficient late fusion mechanism for task adaptation in NLU	Jul 1, 2022	Language Modelling	—Unverified
Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models	May 10, 2025	AllDecoder	—Unverified
AttentionLego: An Open-Source Building Block For Spatially-Scalable Large Language Model Accelerator With Processing-In-Memory Technology	Jan 21, 2024	Language ModelingLanguage Modelling	—Unverified
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation	Jul 18, 2024	Language ModelingLanguage Modelling	—Unverified
Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention	Mar 23, 2024	GPULanguage Modeling	—Unverified
Attention with Intention for a Neural Network Conversation Model	Oct 29, 2015	DecoderLanguage Modeling	—Unverified
Attention with Trained Embeddings Provably Selects Important Tokens	May 22, 2025	Binary ClassificationLanguage Modeling	—Unverified
Attention! You Vision Language Model Could Be Maliciously Manipulated	May 26, 2025	Decision MakingHallucination	—Unverified
Attribution and Alignment: Effects of Local Context Repetition on Utterance Production and Comprehension in Dialogue	Nov 21, 2023	Dialogue GenerationLanguage Modeling	—Unverified
Attributions toward Artificial Agents in a modified Moral Turing Test	Apr 3, 2024	Language Modelling	—Unverified
AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning	May 19, 2023	AttributeContinual Learning	—Unverified
A Two-Stage Framework with Self-Supervised Distillation For Cross-Domain Text Classification	Apr 18, 2023	ClassificationCross-Domain Text Classification	—Unverified
A Two-Stage Proactive Dialogue Generator for Efficient Clinical Information Collection Using Large Language Model	Oct 2, 2024	DiagnosticDialogue Generation	—Unverified
Auctions with LLM Summaries	Apr 11, 2024	Language ModelingLanguage Modelling	—Unverified
Audience size and contextual effects on information density in Twitter conversations	Jun 1, 2015	Language Modelling	—Unverified
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition	Oct 4, 2024	Audio GenerationLanguage Modeling	—Unverified
Audio-attention discriminative language model for ASR rescoring	Dec 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval	Dec 14, 2020	Audio captioningLanguage Modeling	—Unverified
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model	Jan 13, 2025	Audio captioningInstruction Following	—Unverified
Audio Dialogues: Dialogues dataset for audio and music understanding	Apr 11, 2024	Audio captioningAudio Question Answering	—Unverified
Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion	Mar 21, 2025	Active LearningLanguage Modeling	—Unverified
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities	Mar 6, 2025	Audio captioningLanguage Modeling	—Unverified
Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models	Jul 10, 2025	Language ModelingLanguage Modelling	—Unverified
Audio Generation with Multiple Conditional Diffusion Model	Aug 23, 2023	Audio GenerationDiversity	—Unverified
AudioPaLM: A Large Language Model That Can Speak and Listen	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations	May 17, 2024	Audio Signal ProcessingLanguage Modeling	—Unverified
Audio-Visual LLM for Video Understanding	Dec 11, 2023	AudioCapsLanguage Modeling	—Unverified
Aud-Sur: An Audio Analyzer Assistant for Audio Surveillance Applications	Mar 31, 2025	Information RetrievalLanguage Modeling	—Unverified
Augmented Language Models: a Survey	Feb 15, 2023	Language ModelingLanguage Modelling	—Unverified
Augmented Neural Story Generation with Commonsense Inference	Jun 16, 2021	Language ModelingLanguage Modelling	—Unverified
Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data	Jan 16, 2025	Data InteractionDescriptive	—Unverified
Augmenting Autotelic Agents with Large Language Models	May 21, 2023	Common Sense ReasoningLanguage Modeling	—Unverified
Augmenting emotion features in irony detection with Large language modeling	Apr 18, 2024	Language ModelingLanguage Modelling	—Unverified
Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment	Jan 15, 2025	Language ModelingLanguage Modelling	—Unverified
Augmenting Language Models with Long-Term Memory	Jun 12, 2023	FormIn-Context Learning	—Unverified
Augmenting Large Language Model Translators via Translation Memories	May 27, 2023	In-Context LearningLanguage Modeling	—Unverified
Augmenting LLMs with Knowledge: A survey on hallucination prevention	Sep 28, 2023	HallucinationLanguage Modeling	—Unverified
Augmenting Translation Models with Simulated Acoustic Confusions for Improved Spoken Language Translation	Apr 1, 2014	Language ModellingMachine Translation	—Unverified
Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics	Jul 31, 2022	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 312 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified