Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1751–1800 of 17610 papers

Title	Date	Tasks	Status	Hype
Large Language Model as Universal Retriever in Industrial-Scale Recommender System	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Intent Representation Learning with Large Language Model for Recommendation	Feb 5, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Fine-grained Preference Optimization Improves Zero-shot Text-to-Speech	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Large Language Model Guided Self-Debugging Code Generation	Feb 5, 2025	Code GenerationComputational Efficiency	—Unverified	0
Enhancing Reasoning to Adapt Large Language Models for Domain-Specific Applications	Feb 5, 2025	In-Context LearningLanguage Modeling	CodeCode Available	1
Overcoming Vision Language Model Challenges in Diagram Understanding: A Proof-of-Concept with XML-Driven Large Language Models Solutions	Feb 5, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Control Search Rankings, Control the World: What is a Good Search Engine?	Feb 5, 2025	EthicsInformation Retrieval	—Unverified	0
HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Simplifying Formal Proof-Generating Models with ChatGPT and Basic Searching Techniques	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs	Feb 4, 2025	Formal LogicKnowledge Graphs	—Unverified	0
FinBloom: Knowledge Grounding Large Language Model with Real-time Financial Data	Feb 4, 2025	Algorithmic TradingArticles	—Unverified	0
Position: Stop Acting Like Language Model Agents Are Normal Agents	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified	0
Prompt-based Depth Pruning of Large Language Models	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified	0
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model	Feb 4, 2025	Instruction FollowingLanguage Modeling	—Unverified	0
Reviving The Classics: Active Reward Modeling in Large Language Model Alignment	Feb 4, 2025	Computational EfficiencyExperimental Design	CodeCode Available	2
Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs	Feb 4, 2025	Code GenerationLanguage Modeling	CodeCode Available	2
JingFang: A Traditional Chinese Medicine Large Language Model of Expert-Level Medical Diagnosis and Syndrome Differentiation-Based Treatment	Feb 4, 2025	DiagnosticLanguage Modeling	—Unverified	0
Analyzing Similarity Metrics for Data Selection for Language Model Pretraining	Feb 4, 2025	DecoderLanguage Modeling	—Unverified	0
Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants	Feb 4, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified	0
Unlocking Efficient Large Inference Models: One-Bit Unrolling Tips the Scales	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified	0
MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified	0
Flatten Graphs as Sequences: Transformers are Scalable Graph Generators	Feb 4, 2025	DecoderGraph Generation	—Unverified	0
LLM-USO: Large Language Model-based Universal Sizing Optimizer	Feb 4, 2025	Bayesian OptimizationLanguage Modeling	—Unverified	0
ComplexDec: A Domain-robust High-fidelity Neural Audio Codec with Complex Spectrum Modeling	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified	0
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing	Feb 4, 2025	Collaborative InferenceLanguage Modeling	CodeCode Available	1
EditIQ: Automated Cinematic Editing of Static Wide-Angle Videos via Dialogue Interpretation and Saliency Cues	Feb 4, 2025	Dialogue InterpretationDialogue Understanding	—Unverified	0
When Dimensionality Hurts: The Role of LLM Embedding Compression for Noisy Regression Tasks	Feb 4, 2025	Language Modelling	CodeCode Available	0
Knowledge Synthesis of Photosynthesis Research Using a Large Language Model	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Eliciting Language Model Behaviors with Investigator Agents	Feb 3, 2025	Bayesian InferenceHallucination	—Unverified	0
InfoBridge: Mutual Information estimation via Bridge Matching	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Scaling Embedding Layers in Language Models	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Learning to Learn Weight Generation via Local Consistency Diffusion	Feb 3, 2025	Domain GeneralizationFew-Shot Learning	—Unverified	0
Scalable Language Models with Posterior Inference of Latent Thought Vectors	Feb 3, 2025	DecoderLanguage Modeling	—Unverified	0
The Differences Between Direct Alignment Algorithms are a Blur	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Explaining Context Length Scaling and Bounds for Language Models	Feb 3, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
QLESS: A Quantized Approach for Data Valuation and Selection in Large Language Model Fine-Tuning	Feb 3, 2025	Data ValuationLanguage Modeling	CodeCode Available	0
FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Latent Lexical Projection in Large Language Models: A Novel Approach to Implicit Representation Refinement	Feb 3, 2025	Computational EfficiencyDiversity	—Unverified	0
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods	Feb 3, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Position: Towards a Responsible LLM-empowered Multi-Agent Systems	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Polynomial, trigonometric, and tropical activations	Feb 3, 2025	image-classificationImage Classification	CodeCode Available	1
Simulating Rumor Spreading in Social Networks using LLM Agents	Feb 3, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
ConditionNET: Learning Preconditions and Effects for Execution Monitoring	Feb 3, 2025	Anomaly DetectionLanguage Modeling	—Unverified	0
An Inquiry into Datacenter TCO for LLM Inference with FP8	Feb 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Language Models Use Trigonometry to Do Addition	Feb 2, 2025	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 36 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified