Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3201–3250 of 17610 papers

Title	Date	Tasks	Status	Hype	Score
Learning Cross-modal Context Graph for Visual Grounding	Feb 13, 2020	Graph MatchingGraph Neural Network	CodeCode Available	1	5
GraphXForm: Graph transformer for computer-aided molecular design	Nov 3, 2024	Drug DesignDrug Discovery	CodeCode Available	1	5
Learning How to Ask: Querying LMs with Mixtures of Soft Prompts	Apr 14, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5
Collective Constitutional AI: Aligning a Language Model with Public Input	Jun 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Asynchronous Local-SGD Training for Language Modeling	Jan 17, 2024	Distributed OptimizationLanguage Modeling	CodeCode Available	1	5
CoLLM: A Large Language Model for Composed Image Retrieval	Mar 25, 2025	Image RetrievalLanguage Modeling	CodeCode Available	1	5
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining	Jan 30, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
GRENADE: Graph-Centric Language Model for Self-Supervised Representation Learning on Text-Attributed Graphs	Oct 23, 2023	Contrastive LearningGraph Neural Network	CodeCode Available	1	5
Leveraging Natural Supervision for Language Representation Learning and Generation	Jul 21, 2022	Data-to-Text GenerationLanguage Modelling	CodeCode Available	1	5
G-Refer: Graph Retrieval-Augmented Large Language Model for Explainable Recommendation	Feb 18, 2025	Collaborative FilteringExplainable Recommendation	CodeCode Available	1	5
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training	Jun 15, 2024	Domain AdaptationLanguage Modeling	CodeCode Available	1	5
GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training	Aug 8, 2022	Image-text matchingLanguage Modeling	CodeCode Available	1	5
LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions	May 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward	Mar 31, 2025	Crowd CountingLanguage Modeling	CodeCode Available	1	5
Polynomial, trigonometric, and tropical activations	Feb 3, 2025	image-classificationImage Classification	CodeCode Available	1	5
Grounding Language Models for Visual Entity Recognition	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model	Apr 9, 2023	Cross-Part Crowd CountingCrowd Counting	CodeCode Available	1	5
Grounded Compositional Outputs for Adaptive Language Modeling	Sep 24, 2020	Language ModelingLanguage Modelling	CodeCode Available	1	5
Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training	Jun 1, 2022	Contrastive LearningCross-Lingual Transfer	CodeCode Available	1	5
LEAM: A Prompt-only Large Language Model-enabled Antenna Modeling Method	Apr 25, 2025	Language ModelingLanguage Modelling	CodeCode Available	1	5
Prompsit's submission to WMT 2018 Parallel Corpus Filtering shared task	Oct 1, 2018	Active LearningLanguage Modeling	CodeCode Available	1	5
Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach	Aug 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Layer-wise Pruning of Transformer Attention Heads for Efficient Language Modeling	Oct 7, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5
Cross-Thought for Sentence Encoder Pre-training	Oct 7, 2020	Information RetrievalLanguage Modeling	CodeCode Available	1	5
Cross-model Control: Improving Multiple Large Language Models in One-time Training	Oct 23, 2024	Instruction FollowingLanguage Modeling	CodeCode Available	1	5
PromptBoosting: Black-Box Text Classification with Ten Forward Passes	Dec 19, 2022	ClassificationLanguage Modelling	CodeCode Available	1	5
Rank-DistiLLM: Closing the Effectiveness Gap Between Cross-Encoders and LLMs for Passage Re-Ranking	May 13, 2024	Language ModellingLarge Language Model	CodeCode Available	1	5
Learning Approximate Inference Networks for Structured Prediction	Mar 9, 2018	Language ModelingLanguage Modelling	CodeCode Available	1	5
Cross-lingual Visual Pre-training for Multimodal Machine Translation	Jan 25, 2021	Language ModellingMachine Translation	CodeCode Available	1	5
Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents	May 9, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling	Jun 14, 2022	DecoderLanguage Modeling	CodeCode Available	1	5
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport	Jan 16, 2025	AudioCapsAudio captioning	CodeCode Available	1	5
LaunchpadGPT: Language Model as Music Visualization Designer on Launchpad	Jul 7, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
GypSum: Learning Hybrid Representations for Code Summarization	Apr 26, 2022	Code SummarizationDecoder	CodeCode Available	1	5
LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models	Apr 10, 2025	DecoderLanguage Modeling	CodeCode Available	1	5
SpeechPrompt: An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing Tasks	Mar 31, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
Hallucinations in Large Multilingual Translation Models	Mar 28, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking	Dec 14, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
C-STS: Conditional Semantic Textual Similarity	May 24, 2023	Information RetrievalLanguage Model Evaluation	CodeCode Available	1	5
Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer	May 6, 2021	Data AugmentationDecoder	CodeCode Available	1	5
Learning Associative Inference Using Fast Weight Memory	Nov 16, 2020	Language ModellingMeta Reinforcement Learning	CodeCode Available	1	5
CommitBERT: Commit Message Generation Using Pre-Trained Programming Language Model	May 29, 2021	DecoderLanguage Modeling	CodeCode Available	1	5
CommitBERT: Commit Message Generation Using Pre-Trained Programming Language Model	Aug 1, 2021	DecoderLanguage Modeling	CodeCode Available	1	5
BiasEdit: Debiasing Stereotyped Language Models via Model Editing	Mar 11, 2025	counterfactualLanguage Modeling	CodeCode Available	1	5
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling	Nov 23, 2021	Image CaptioningImage Description	CodeCode Available	1	5
Common Sense Enhanced Knowledge-based Recommendation with Large Language Model	Mar 27, 2024	Common Sense ReasoningKnowledge Graphs	CodeCode Available	1	5
Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning	Jul 20, 2024	Contrastive LearningDiagnostic	CodeCode Available	1	5
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought	Mar 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Knowledge-Augmented Language Models for Cause-Effect Relation Classification	Dec 16, 2021	Cause-Effect Relation ClassificationClassification	CodeCode Available	1	5
Cross-domain Retrieval in the Legal and Patent Domains: a Reproducibility Study	Dec 21, 2020	Information RetrievalLanguage Modelling	CodeCode Available	1	5

Show:10 25 50

← PrevPage 65 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified