Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 17610 papers

Title	Date	Tasks	Status	Hype
CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Language Model Uncertainty Quantification with Attention Chain	Mar 24, 2025	Computational EfficiencyLanguage Modeling	CodeCode Available	1
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling	Mar 24, 2025	Continual PretrainingLanguage Modeling	—Unverified	0
A Survey of Large Language Model Agents for Question Answering	Mar 24, 2025	Answer GenerationInformation Retrieval	—Unverified	0
Sun-Shine: A Large Language Model for Tibetan Culture	Mar 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Solving Situation Puzzles with Large Language Model and External Reformulation	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Breaking the Encoder Barrier for Seamless Video-Language Understanding	Mar 24, 2025	DecoderLanguage Modeling	—Unverified	0
MC-LLaVA: Multi-Concept Personalized Vision-Language Model	Mar 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Autoregressive Language Models for Knowledge Base Population: A case study in the space mission domain	Mar 24, 2025	Knowledge Base PopulationLanguage Modeling	—Unverified	0
Unsupervised Acquisition of Discrete Grammatical Categories	Mar 24, 2025	Language AcquisitionLanguage Modeling	—Unverified	0
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Human-Object Interaction with Vision-Language Model Guided Relative Movement Dynamics	Mar 24, 2025	Human-Object Interaction DetectionLanguage Modeling	—Unverified	0
MMCR: Advancing Visual Language Model in Multimodal Multi-Turn Contextual Reasoning	Mar 24, 2025	DiagnosticLanguage Modeling	—Unverified	0
LANGALIGN: Enhancing Non-English Language Models via Cross-Lingual Embedding Alignment	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Discriminative protein sequence modelling with Latent Space Diffusion	Mar 24, 2025	DenoisingLanguage Modeling	—Unverified	0
PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model	Mar 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Distil-xLSTM: Learning Attention Mechanisms through Recurrent Structures	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Manipulation and the AI Act: Large Language Model Chatbots and the Danger of Mirrors	Mar 24, 2025	ChatbotLanguage Modeling	—Unverified	0
ModiGen: A Large Language Model-Based Workflow for Multi-Task Modelica Code Generation	Mar 24, 2025	Code GenerationLanguage Modeling	—Unverified	0
Simulating Filter Bubble on Short-video Recommender System with Large Language Model Agents	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
ExpertRAG: Efficient RAG with Mixture of Experts -- Optimizing Context Retrieval for Adaptive LLM Responses	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
Payload-Aware Intrusion Detection with CMAE and Large Language Models	Mar 23, 2025	Intrusion DetectionLanguage Modeling	—Unverified	0
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
LakotaBERT: A Transformer-based Model for Low Resource Lakota Language	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
Detection of Somali-written Fake News and Toxic Messages on the Social Media Using Transformer-based Language Models	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Training	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
CountLLM: Towards Generalizable Repetitive Action Counting via Large Language Model	Mar 22, 2025	Language ModelingLanguage Modelling	—Unverified	0
Large Language Model Compression via the Nested Activation-Aware Decomposition	Mar 21, 2025	Language ModelingLanguage Modelling	—Unverified	0
CASE -- Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement	Mar 21, 2025	Dimensionality ReductionLanguage Modeling	—Unverified	0
Modifying Large Language Model Post-Training for Diverse Creative Writing	Mar 21, 2025	DiversityLanguage Modeling	CodeCode Available	2
Federated Cross-Domain Click-Through Rate Prediction With Large Language Model Augmentation	Mar 21, 2025	Click-Through Rate PredictionContrastive Learning	—Unverified	0
Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language Models	Mar 21, 2025	Language ModelingLanguage Modelling	—Unverified	0
Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion	Mar 21, 2025	Active LearningLanguage Modeling	—Unverified	0
Efficient Knowledge Distillation via Curriculum Extraction	Mar 21, 2025	Knowledge DistillationLanguage Modeling	—Unverified	0
CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities	Mar 21, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models	Mar 21, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Variance Control via Weight Rescaling in LLM Pre-training	Mar 21, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Field-Mediated Semantic Organization in Large Language Models: Evidence for Quantum-Like Properties in Artificial Neural Systems	Mar 21, 2025	Language ModelingLanguage Modelling	—Unverified	0
How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities	Mar 20, 2025	General KnowledgeLanguage Modeling	CodeCode Available	0
A Comprehensive Survey on Long Context Language Modeling	Mar 20, 2025	Language ModelingLanguage Modelling	CodeCode Available	3
Code Evolution Graphs: Understanding Large Language Model Driven Design of Algorithms	Mar 20, 2025	Language ModelingLanguage Modelling	—Unverified	0
Video-VoT-R1: An efficient video inference model integrating image packing and AoE architecture	Mar 20, 2025	Language ModelingLanguage Modelling	—Unverified	0
Using Language Models to Decipher the Motivation Behind Human Behaviors	Mar 20, 2025	Language ModelingLanguage Modelling	—Unverified	0
Entropy-based Exploration Conduction for Multi-step Reasoning	Mar 20, 2025	Language ModelingLanguage Modelling	—Unverified	0
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model	Mar 20, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Exploring the Reliability of Self-explanation and its Relationship with Classification in Language Model-driven Financial Analysis	Mar 20, 2025	ClassificationFinancial Analysis	CodeCode Available	0
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction	Mar 20, 2025	Image GenerationLanguage Modeling	—Unverified	0
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning	Mar 20, 2025	Decision MakingLanguage Modeling	CodeCode Available	4

Show:10 25 50

← PrevPage 23 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified