Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4351–4400 of 17610 papers

Title	Date	Tasks	Status	Score
CorefPrompt: Prompt-based Event Coreference Resolution by Measuring Event Type and Argument Compatibilities	Oct 23, 2023	coreference-resolutionCoreference Resolution	CodeCode Available	5
AnchiBERT: A Pre-Trained Model for Ancient ChineseLanguage Understanding and Generation	Sep 24, 2020	Cultural Vocal Bursts Intensity PredictionLanguage Modeling	CodeCode Available	5
Exploring Graph Representations of Logical Forms for Language Modeling	May 20, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Block-wise Dynamic Sparseness	Jan 14, 2020	Language ModelingLanguage Modelling	CodeCode Available	5
Exploring Language Model Generalization in Low-Resource Extractive QA	Sep 27, 2024	Domain GeneralizationExtractive Question-Answering	CodeCode Available	5
Exploring Large Language Models and Hierarchical Frameworks for Classification of Large Unstructured Legal Documents	Mar 11, 2024	ClusteringLanguage Modelling	CodeCode Available	5
Blockwise Self-Attention for Long Document Understanding	Nov 7, 2019	document understandingLanguage Modeling	CodeCode Available	5
Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A Case Study in Taiwanese Hokkien	Jan 21, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Exploring Multilingual Text Data Distillation	Aug 9, 2023	Dataset DistillationFairness	CodeCode Available	5
Correcting misinformation on social media with a large language model	Mar 17, 2024	Fact CheckingLanguage Modeling	CodeCode Available	5
Exploring Multitask Learning for Low-Resource Abstractive Summarization	Nov 1, 2021	Abstractive Text SummarizationExtractive Summarization	CodeCode Available	5
A Statistical Investigation of Long Memory in Language and Music	Apr 8, 2019	Language ModellingTime Series Analysis	CodeCode Available	5
Anchor Points: Benchmarking Models with Much Fewer Examples	Sep 14, 2023	BenchmarkingLanguage Modeling	CodeCode Available	5
A statistical significance testing approach for measuring term burstiness with applications to domain-specific terminology extraction	Oct 24, 2023	Language Modelling	CodeCode Available	5
Exploring Personalized Health Support through Data-Driven, Theory-Guided LLMs: A Case Study in Sleep Health	Feb 19, 2025	ChatbotLanguage Modeling	CodeCode Available	5
Exploring Possibilities of AI-Powered Legal Assistance in Bangladesh through Large Language Modeling	Oct 22, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Adaptively Truncating Backpropagation Through Time to Control Gradient Bias	May 17, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
BoK: Introducing Bag-of-Keywords Loss for Interpretable Dialogue Response Generation	Jan 17, 2025	DecoderDialogue Evaluation	CodeCode Available	5
Exploring RWKV for Sentence Embeddings: Layer-wise Analysis and Baseline Comparison for Semantic Similarity	Feb 20, 2025	GPULanguage Modeling	CodeCode Available	5
CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents	Jun 17, 2024	Code GenerationCode Search	CodeCode Available	5
Co-STAR: Collaborative Curriculum Self-Training with Adaptive Regularization for Source-Free Video Domain Adaptation	Apr 15, 2025	Domain AdaptationLanguage Modeling	CodeCode Available	5
Scaling Trends in Language Model Robustness	Jul 25, 2024	Adversarial RobustnessLanguage Modeling	CodeCode Available	5
Exploring Iterative Enhancement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models	Sep 19, 2023	Explanation GenerationLanguage Modelling	CodeCode Available	5
ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Low-Perplexity Toxic Prompts	Jul 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Counterfactual Language Model Adaptation for Suggesting Phrases	Oct 4, 2017	counterfactualLanguage Modeling	CodeCode Available	5
Counterfactually Probing Language Identity in Multilingual Models	Oct 29, 2023	counterfactualLanguage Modeling	CodeCode Available	5
AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control	Jun 25, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Exploring the Design Space of Visual Context Representation in Video MLLMs	Oct 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Exploring the Effectiveness of Multi-stage Fine-tuning for Cross-encoder Re-rankers	Mar 28, 2025	Contrastive LearningLanguage Modeling	CodeCode Available	5
Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models	Aug 21, 2024	counterfactualDecision Making	CodeCode Available	5
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis	Nov 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Boosting Disfluency Detection with Large Language Model as Disfluency Generator	Mar 13, 2024	Data AugmentationLanguage Modeling	CodeCode Available	5
An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue Assistant	Jan 10, 2024	Dialogue GenerationLanguage Modelling	CodeCode Available	5
On the Relationship between Sentence Analogy Identification and Sentence Structure Encoding in Large Language Models	Oct 11, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability	Oct 12, 2023	Causal Language ModelingIn-Context Learning	CodeCode Available	5
Exploring the Reliability of Self-explanation and its Relationship with Classification in Language Model-driven Financial Analysis	Mar 20, 2025	ClassificationFinancial Analysis	CodeCode Available	5
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement	Oct 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Transformers on Multilingual Clause-Level Morphology	Nov 3, 2022	Data AugmentationLanguage Modelling	CodeCode Available	5
Exploring the Syntactic Abilities of RNNs with Multi-task Learning	Jun 12, 2017	CCG SupertaggingLanguage Modeling	CodeCode Available	5
Boosting Large Language Models with Mask Fine-Tuning	Mar 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing Prediction of Political Polarity in Multilingual News Headlines	Dec 1, 2022	Language ModellingRetrieval	CodeCode Available	5
An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification	Sep 5, 2024	Data AugmentationDiversity	CodeCode Available	5
Boosting Prompt-Based Self-Training With Mapping-Free Automatic Verbalizer for Multi-Class Classification	Dec 8, 2023	ClassificationFew-Shot Text Classification	CodeCode Available	5
A dynamical clipping approach with task feedback for Proximal Policy Optimization	Dec 12, 2023	Language ModellingLarge Language Model	CodeCode Available	5
Exploring the zero-shot limit of FewRel	Dec 1, 2020	Language ModelingLanguage Modelling	CodeCode Available	5
Exploring Transformer Extrapolation	Jul 19, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Exploring Unsupervised Pretraining Objectives for Machine Translation	Jun 10, 2021	DecoderLanguage Modeling	CodeCode Available	5
Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation	Jun 5, 2024	Contrastive LearningLanguage Modelling	CodeCode Available	5
COVID-19 Vaccine Misinformation in Middle Income Countries	Nov 30, 2023	Language ModellingLarge Language Model	CodeCode Available	5
Exploring Weight Symmetry in Deep Neural Networks	Dec 28, 2018	Language ModelingLanguage Modelling	CodeCode Available	5

Show:10 25 50

← PrevPage 88 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified