Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6951–7000 of 17610 papers

Title	Date	Tasks	Status
Can Large Language Model Predict Employee Attrition?	Nov 2, 2024	Language ModelingLanguage Modelling	—Unverified
Can Large Language Models do Analytical Reasoning?	Mar 6, 2024	Language ModellingLarge Language Model	—Unverified
Can Large Language Models Predict Associations Among Human Attitudes?	Mar 26, 2025	Language ModelingLanguage Modelling	—Unverified
Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals?	Jan 18, 2024	Language ModelingLanguage Modelling	—Unverified
Can LLM Assist in the Evaluation of the Quality of Machine Learning Explanations?	Feb 28, 2025	Language ModelingLanguage Modelling	—Unverified
Can LLMs be Good Financial Advisors?: An Initial Study in Personal Decision Making for Optimized Outcomes	Jul 8, 2023	Decision MakingLanguage Modeling	—Unverified
Can LLMs Compute with Reasons?	Feb 19, 2024	Inductive LearningLanguage Modeling	—Unverified
Can LLMs Explain Themselves Counterfactually?	Feb 25, 2025	counterfactualCounterfactual Reasoning	—Unverified
Can LLMs facilitate interpretation of pre-trained language models?	May 22, 2023	Language ModelingLanguage Modelling	—Unverified
Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games	Oct 28, 2024	Decision MakingLanguage Modeling	—Unverified
Can Markov Models Over Minimal Translation Units Help Phrase-Based SMT?	Aug 1, 2013	Language ModellingTranslation	—Unverified
Can Multimodal Large Language Model Think Analogically?	Nov 2, 2024	Language ModelingLanguage Modelling	—Unverified
Can Offline Reinforcement Learning Help Natural Language Understanding?	Sep 15, 2022	Language ModelingLanguage Modelling	—Unverified
Can Perplexity Predict Fine-Tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali	Apr 28, 2024	Language ModelingLanguage Modelling	—Unverified
Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding?	May 9, 2024	Language ModelingLanguage Modelling	—Unverified
Can Sequence-to-Sequence Models Crack Substitution Ciphers?	Dec 30, 2020	DeciphermentLanguage Identification	—Unverified
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought	Apr 4, 2024	Extractive Question-AnsweringKnowledge Distillation	—Unverified
Can Symbol Grounding Improve Low-Level NLP? Word Segmentation as a Case Study	Sep 1, 2015	Language ModellingPart-Of-Speech Tagging	—Unverified
Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models	May 30, 2024	Action Anticipationcounterfactual	—Unverified
cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media Comments using Spatio-Temporally Retrained Language Models	Aug 20, 2023	ClassificationLanguage Modeling	—Unverified
Can Unconditional Language Models Recover Arbitrary Sentences?	Jul 10, 2019	Language ModelingLanguage Modelling	—Unverified
Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators	Jul 20, 2024	Action RecognitionCoLA	—Unverified
Can We Reverse In-Context Knowledge Edits?	Oct 16, 2024	knowledge editingLanguage Modelling	—Unverified
Can We Train a Language Model Inside an End-to-End ASR Model? - Investigating Effective Implicit Language Modeling	Oct 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can we trust the evaluation on ChatGPT?	Mar 22, 2023	Language ModelingLanguage Modelling	—Unverified
Can Wikipedia Categories Improve Masked Language Model Pretraining?	Jul 1, 2020	Language ModelingLanguage Modelling	—Unverified
Can You Trust Your Metric? Automatic Concatenation-Based Tests for Metric Validity	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models	Nov 11, 2024	2D Pose EstimationCategory-Agnostic Pose Estimation	—Unverified
Capitalization Normalization for Language Modeling with an Accurate and Efficient Hierarchical RNN Model	Feb 16, 2022	Federated LearningLanguage Modeling	—Unverified
CAPRAG: A Large Language Model Solution for Customer Service and Automatic Reporting using Vector and Graph Retrieval-Augmented Generation	Jan 23, 2025	AI AgentLanguage Modeling	—Unverified
CAPT: Class-Aware Prompt Tuning for Federated Long-Tailed Learning with Vision-Language Model	Mar 10, 2025	Federated LearningLanguage Modeling	—Unverified
CapText: Large Language Model-based Caption Generation From Image Context and Description	Jun 1, 2023	Caption GenerationImage to text	—Unverified
Capturing Topic Framing via Masked Language Modeling	Feb 7, 2023	ArticlesLanguage Modeling	—Unverified
CarbonChat: Large Language Model-Based Corporate Carbon Emission Analysis and Climate Knowledge Q&A System	Jan 3, 2025	ChunkingHallucination	—Unverified
Carbon Footprint Evaluation of Code Generation through LLM as a Service	Mar 30, 2025	Code GenerationLanguage Modeling	—Unverified
Cardiff University at SemEval-2020 Task 6: Fine-tuning BERT for Domain-Specific Definition Classification	Dec 1, 2020	Language ModelingLanguage Modelling	—Unverified
CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion	Aug 21, 2024	Language ModellingLarge Language Model	—Unverified
CareBot: A Pioneering Full-Process Open-Source Medical Language Model	Dec 12, 2024	Language ModelingLanguage Modelling	—Unverified
CART: Compositional Auto-Regressive Transformer for Image Generation	Nov 15, 2024	Image GenerationLanguage Modeling	—Unverified
Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information	Mar 22, 2024	3D ReconstructionHallucination	—Unverified
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning	Dec 21, 2023	Language ModellingLarge Language Model	—Unverified
Cascaded Beam Search: Plug-and-Play Terminology-Forcing For Neural Machine Translation	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
Cascaded CNN-resBiLSTM-CTC: An End-to-End Acoustic Model For Speech Recognition	Oct 29, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cascaded Semantic and Positional Self-Attention Network for Document Classification	Sep 15, 2020	ClassificationDocument Classification	—Unverified
Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin Speech Recognition with a Syllable-to-Character Converter	Nov 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Case-based Reasoning Augmented Large Language Model Framework for Decision Making in Realistic Safety-Critical Driving Scenarios	Jun 25, 2025	Autonomous DrivingDecision Making	—Unverified
CASE -- Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement	Mar 21, 2025	Dimensionality ReductionLanguage Modeling	—Unverified
Casper: Prompt Sanitization for Protecting User Privacy in Web-Based Large Language Models	Aug 13, 2024	Language ModellingLarge Language Model	—Unverified
Catalysis distillation neural network for the few shot open catalyst challenge	May 31, 2023	Computational chemistryFew-Shot Learning	—Unverified
CaT-BENCH: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans	Jun 22, 2024	BenchmarkingDecision Making	—Unverified

Show:10 25 50

← PrevPage 140 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified