Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13501–13550 of 17610 papers

Title	Date	Tasks	Status
Generative Question Answering: Learning to Answer the Whole Question	May 1, 2019	Generative Question AnsweringLanguage Modeling	—Unverified
Generative Recommendation with Continuous-Token Diffusion	Apr 16, 2025	DenoisingLanguage Modeling	—Unverified
Generative Regression Based Watch Time Prediction for Short-Video Recommendation	Dec 28, 2024	Language ModelingLanguage Modelling	—Unverified
Generative Relevance Feedback with Large Language Models	Apr 25, 2023	ArticlesLanguage Modeling	—Unverified
Generative retrieval-augmented ontologic graph and multi-agent strategies for interpretive large language model-based materials design	Oct 30, 2023	Code GenerationLanguage Modeling	—Unverified
Generative Sentiment Transfer via Adaptive Masking	Feb 23, 2023	Language ModelingLanguage Modelling	—Unverified
Generative Spoken Dialogue Language Modeling	Mar 30, 2022	Language ModelingLanguage Modelling	—Unverified
Generative Spoken Language Model based on continuous word-sized audio tokens	Oct 8, 2023	Language ModelingLanguage Modelling	—Unverified
Generative Technology for Human Emotion Recognition: A Scope Review	Jul 4, 2024	Data AugmentationEmotional Intelligence	—Unverified
Generative Text Steganography with Large Language Model	Apr 16, 2024	Language ModelingLanguage Modelling	—Unverified
Generative Timelines for Instructed Visual Assembly	Nov 19, 2024	Language Modelling	—Unverified
GeneSUM: Large Language Model-based Gene Summary Extraction	Dec 24, 2024	Decision MakingLanguage Modeling	—Unverified
GeNet: A Multimodal LLM-Based Co-Pilot for Network Topology and Configuration	Jul 11, 2024	Language ModelingLanguage Modelling	—Unverified
GenFollower: Enhancing Car-Following Prediction with Large Language Models	Jul 8, 2024	Autonomous DrivingLanguage Modeling	—Unverified
Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise	Dec 22, 2022	DecoderDenoising	—Unverified
GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified
GenSpectrum Chat: Data Exploration in Public Health Using Large Language Models	May 23, 2023	ChatbotLanguage Modelling	—Unverified
GenTAL: Generative Denoising Skip-gram Transformer for Unsupervised Binary Code Similarity Detection	Sep 29, 2021	Contrastive LearningDenoising	—Unverified
GenTorrent: Scaling Large Language Model Serving with An Overley Network	Apr 27, 2025	Language ModelingLanguage Modelling	—Unverified
GenTUS: Simulating User Behaviour and Language in Task-oriented Dialogues with Generative Transformers	Aug 23, 2022	DecoderLanguage Modelling	—Unverified
GenX: Mastering Code and Test Generation with Execution Feedback	Dec 18, 2024	Code GenerationData Augmentation	—Unverified
Gen-Z: Generative Zero-Shot Text Classification with Contextualized Label Descriptions	Nov 13, 2023	ClassificationLanguage Modeling	—Unverified
GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks	Oct 22, 2024	Code GenerationCode Summarization	—Unverified
GeoDANO: Geometric VLM with Domain Agnostic Vision Encoder	Feb 17, 2025	Domain AdaptationLanguage Modeling	—Unverified
GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing	Jul 8, 2025	Language ModelingLanguage Modelling	—Unverified
Geometry Informed Tokenization of Molecules for Language Model Generation	Aug 19, 2024	Language ModelingLanguage Modelling	—Unverified
Geometry is All You Need: A Unified Taxonomy of Matrix and Tensor Factorization for Compression of Generative Language Models	Oct 3, 2024	AllLanguage Modeling	—Unverified
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing	Jan 12, 2025	Image CaptioningLanguage Modeling	—Unverified
GeoReasoner: Reasoning On Geospatially Grounded Context For Natural Language Understanding	Aug 21, 2024	Entity TypingLanguage Modeling	—Unverified
GeoRecon: Graph-Level Representation Learning for 3D Molecules via Reconstruction-Based Pretraining	Jun 16, 2025	DenoisingLanguage Modeling	—Unverified
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified
German and English Treebanks and Lexica for Tree-Adjoining Grammars	May 1, 2012	Language ModellingTAG	—Unverified
German BERT Model for Legal Named Entity Recognition	Mar 7, 2023	Language Modellingmodel	—Unverified
German FinBERT: A German Pre-trained Language Model	Nov 15, 2023	Language ModelingLanguage Modelling	—Unverified
GersteinLab at MEDIQA-Chat 2023: Clinical Note Summarization from Doctor-Patient Conversations through Fine-tuning and In-context Learning	May 8, 2023	In-Context LearningLanguage Modeling	—Unverified
Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders	Feb 18, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs	May 5, 2024	GPULanguage Modelling	—Unverified
Get the gist? Using large language models for few-shot decontextualization	Oct 10, 2023	Information RetrievalLanguage Modeling	—Unverified
Getting to Production with Few-shot Natural Language Generation Models	Jul 1, 2021	Language ModelingLanguage Modelling	—Unverified
GhostWriter: Using an LSTM for Automatic Rap Lyric Generation	Sep 1, 2015	Language ModellingText Generation	—Unverified
GIELLM: Japanese General Information Extraction Large Language Model Utilizing Mutual Reinforcement Effect	Nov 12, 2023	Event ExtractionLanguage Modeling	—Unverified
GigaChat Family: Efficient Russian Language Modeling Through Mixture of Experts Architecture	Jun 11, 2025	Language ModelingLanguage Modelling	—Unverified
GiusBERTo: A Legal Language Model for Personal Data De-identification in Italian Court of Auditors Decisions	Jun 21, 2024	De-identificationLanguage Modeling	—Unverified
Giving Simulated Cells a Voice: Evolving Prompt-to-Intervention Models for Cellular Control	May 5, 2025	Language ModelingLanguage Modelling	—Unverified
GKS: Graph-based Knowledge Selector for Task-oriented Dialog System	Dec 7, 2021	Decision MakingGraph Attention	—Unverified
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts	Dec 13, 2021	Common Sense ReasoningIn-Context Learning	—Unverified
Glauber Generative Model: Discrete Diffusion Models via Binary Classification	May 27, 2024	Binary ClassificationDenoising	—Unverified
GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model	Dec 8, 2024	Graph Neural NetworkLanguage Modeling	—Unverified
GLM: General Language Model Pretraining with Autoregressive Blank Infilling	Nov 16, 2021	DecoderLanguage Modeling	—Unverified
Global and Local Feature Learning for Ego-Network Analysis	Feb 16, 2020	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 271 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified