Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16701–16750 of 17610 papers

Title	Date	Tasks	Status
AlphaZip: Neural Network-Enhanced Lossless Text Compression	Sep 23, 2024	BenchmarkingData Compression	CodeCode Available
Helpful assistant or fruitful facilitator? Investigating how personas affect language model behavior	Jul 2, 2024	Language ModelingLanguage Modelling	CodeCode Available
A Self-feedback Knowledge Elicitation Approach for Chemical Reaction Predictions	Apr 15, 2024	Chemical Reaction PredictionDrug Discovery	CodeCode Available
Decoding Concerns: Multi-label Classification of Vaccine Sentiments in Social Media	Dec 17, 2023	Language ModelingLanguage Modelling	CodeCode Available
Empower Sequence Labeling with Task-Aware Neural Language Model	Sep 13, 2017	GPULanguage Modeling	CodeCode Available
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs	May 24, 2024	Code GenerationLanguage Modeling	CodeCode Available
EMULATE: A Multi-Agent Framework for Determining the Veracity of Atomic Claims by Emulating Human Actions	May 22, 2025	Claim VerificationFact Checking	CodeCode Available
Debiasing Pre-Trained Language Models via Efficient Fine-Tuning	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Implicit N-grams Induced by Recurrence	May 5, 2022	Language ModelingLanguage Modelling	CodeCode Available
A segmental framework for fully-unsupervised large-vocabulary speech recognition	Jun 22, 2016	Language ModellingSpeech Recognition	CodeCode Available
Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?	Oct 17, 2024	AllLanguage Modeling	CodeCode Available
Can Large Language Models Learn Independent Causal Mechanisms?	Feb 4, 2024	Language Modelling	CodeCode Available
DATETIME: A new benchmark to measure LLM translation and reasoning capabilities	Apr 22, 2025	Language ModelingLanguage Modelling	CodeCode Available
DataVisT5: A Pre-trained Language Model for Jointly Understanding Text and Data Visualization	Aug 14, 2024	Data VisualizationLanguage Modeling	CodeCode Available
Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training	Dec 20, 2024	Language ModelingLanguage Modelling	CodeCode Available
FriendsQA: A New Large-Scale Deep Video Understanding Dataset with Fine-grained Topic Categorization for Story Videos	Dec 22, 2024	Language ModellingLarge Language Model	CodeCode Available
From Alignment to Entailment: A Unified Textual Entailment Framework for Entity Alignment	May 19, 2023	AttributeEntity Alignment	CodeCode Available
Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education	Jul 24, 2024	Language ModelingLanguage Modelling	CodeCode Available
A second-order-like optimizer with adaptive gradient scaling for deep learning	Oct 8, 2024	Image ClassificationLanguage Modelling	CodeCode Available
InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models	Dec 4, 2023	Adversarial AttackLanguage Modelling	CodeCode Available
A Few-shot Approach to Resume Information Extraction via Prompts	Sep 20, 2022	Language ModelingLanguage Modelling	CodeCode Available
Data Similarity is Not Enough to Explain Language Model Performance	Nov 15, 2023	Language ModelingLanguage Modelling	CodeCode Available
Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition	Jun 12, 2024	Language ModelingLanguage Modelling	CodeCode Available
Encoder-Agnostic Adaptation for Conditional Language Generation	Aug 19, 2019	Conditional Text GenerationLanguage Modeling	CodeCode Available
From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation	Apr 14, 2024	BenchmarkingDiversity	CodeCode Available
Data Selection for Fine-tuning Large Language Models Using Transferred Shapley Values	Jun 16, 2023	Data ValuationLanguage Modeling	CodeCode Available
Data Noising as Smoothing in Neural Network Language Models	Mar 7, 2017	Language ModelingLanguage Modelling	CodeCode Available
Can Language Models Be Specific? How?	Oct 11, 2022	Language ModellingSpecificity	CodeCode Available
Encoding word order in complex embeddings	Dec 27, 2019	Language ModelingLanguage Modelling	CodeCode Available
Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks	Nov 20, 2020	GPULanguage Modeling	CodeCode Available
A Comparison of Centrality Measures for Graph-Based Keyphrase Extraction	Oct 1, 2013	Information RetrievalKeyphrase Extraction	CodeCode Available
Endangered Alert: A Field-Validated Self-Training Scheme for Detecting and Protecting Threatened Wildlife on Roads and Roadsides	Dec 16, 2024	Edge-computingLanguage Modeling	CodeCode Available
DataGpt-SQL-7B: An Open-Source Language Model for Text-to-SQL	Sep 24, 2024	Language ModelingLanguage Modelling	CodeCode Available
DATA: Differentiable ArchiTecture Approximation	Dec 1, 2019	image-classificationImage Classification	CodeCode Available
AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws	Dec 16, 2024	Board GamesLanguage Modelling	CodeCode Available
From Captions to Visual Concepts and Back	Nov 18, 2014	Image CaptioningLanguage Modeling	CodeCode Available
End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures	Nov 19, 2019	Language ModelingLanguage Modelling	CodeCode Available
End-to-End Attention-based Large Vocabulary Speech Recognition	Aug 18, 2015	Acoustic ModellingLanguage Modeling	CodeCode Available
DataChat: Prototyping a Conversational Agent for Dataset Search and Visualization	May 26, 2023	ChatbotLanguage Modeling	CodeCode Available
Data augmentation using prosody and false starts to recognize non-native children's speech	Aug 29, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Comparison of Adaptation Techniques and Recurrent Neural Network Architectures	Jul 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Artificial intelligence in government: Concepts, standards, and a unified framework	Oct 31, 2022	Language Modelling	CodeCode Available
From Cloze to Comprehension: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader	Dec 9, 2022	ClassificationExtractive Question-Answering	CodeCode Available
ArthModel: Enhance Arithmetic Skills to Large Language Model	Nov 30, 2023	Language ModelingLanguage Modelling	CodeCode Available
Data Augmentation for Biomedical Factoid Question Answering	Apr 10, 2022	Data AugmentationInformation Retrieval	CodeCode Available
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models	Oct 7, 2024	Language ModelingLanguage Modelling	CodeCode Available
Arrows of Time for Large Language Models	Jan 30, 2024	Language ModelingLanguage Modelling	CodeCode Available
End-to-end Named Entity Recognition and Relation Extraction using Pre-trained Language Models	Dec 20, 2019	Language ModelingLanguage Modelling	CodeCode Available
DarijaBanking: A New Resource for Overcoming Language Barriers in Banking Intent Detection for Moroccan Arabic Speakers	May 26, 2024	intent-classificationIntent Classification	CodeCode Available
Importance Weighting Can Help Large Language Models Self-Improve	Aug 19, 2024	Language Modellingvalid	CodeCode Available

Show:10 25 50

← PrevPage 335 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified