Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8451–8500 of 17610 papers

Title	Date	Tasks	Status
Drop the beat! Freestyler for Accompaniment Conditioned Rapping Voice Generation	Aug 28, 2024	Language ModelingLanguage Modelling	—Unverified
DrugAgent: Multi-Agent Large Language Model-Based Reasoning for Drug-Target Interaction Prediction	Aug 23, 2024	AI AgentDrug Discovery	—Unverified
DrugLLM: Open Large Language Model for Few-shot Molecule Generation	May 7, 2024	Drug DesignDrug Discovery	—Unverified
Drug Repurposing for Cancer: An NLP Approach to Identify Low-Cost Therapies	Nov 18, 2019	Entity Extraction using GANGeneral Classification	—Unverified
DSL Shared Task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation--Maximization and Chunk-based Language Model	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs	Feb 18, 2025	Computational EfficiencyLanguage Modeling	—Unverified
DS-ProGen: A Dual-Structure Deep Language Model for Functional Protein Design	May 18, 2025	Language ModelingLanguage Modelling	—Unverified
DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines	Dec 20, 2023	Language ModelingLanguage Modelling	—Unverified
DS-TOD: Efficient Domain Specialization for Task-Oriented Dialog	Nov 16, 2021	dialog state trackingLanguage Modeling	—Unverified
Dual Adversarial Neural Transfer for Low-Resource Named Entity Recognition	Jul 1, 2019	Language ModelingLanguage Modelling	—Unverified
Dual Debiasing: Remove Stereotypes and Keep Factual Gender for Fair Language Modeling and Translation	Jan 17, 2025	Language ModelingLanguage Modelling	—Unverified
On the Effectiveness of Pinyin-Character Dual-Decoding for End-to-End Mandarin Chinese ASR	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dual Fixed-Size Ordinally Forgetting Encoding (FOFE) for Competitive Neural Language Models	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified
Dual Language Models for Code Switched Speech Recognition	Nov 3, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning	Sep 18, 2024	Language ModelingLanguage Modelling	—Unverified
Dual Mechanism Priming Effects in Hindi Word Order	Oct 25, 2022	Language ModelingLanguage Modelling	—Unverified
Dual Multi-head Co-attention for Multi-choice Reading Comprehension	Jan 1, 2020	Language ModelingLanguage Modelling	—Unverified
Learning to Prompt Your Domain for Vision-Language Models	Oct 4, 2023	Domain AdaptationFederated Learning	—Unverified
Dual-State Capsule Networks for Text Classification	Sep 10, 2021	ClassificationLanguage Modeling	—Unverified
DualVC 3: Leveraging Language Model Generated Pseudo Context for End-to-end Low Latency Streaming Voice Conversion	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DUAW: Data-free Universal Adversarial Watermark against Stable Diffusion Customization	Aug 19, 2023	DiversityLanguage Modeling	—Unverified
DubWise: Video-Guided Speech Duration Control in Multimodal LLM-based Text-to-Speech for Dubbing	Jun 13, 2024	Language ModelingLanguage Modelling	—Unverified
Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model	Jul 5, 2024	Image AugmentationLanguage Modeling	—Unverified
Dudley North visits North London: Learning When to Transliterate to Arabic	Jun 1, 2013	Information RetrievalLanguage Modelling	—Unverified
Dungeons and Dragons as a Dialog Challenge for Artificial Intelligence	Oct 13, 2022	Language ModellingLarge Language Model	—Unverified
Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech	Feb 27, 2023	Language ModelingLanguage Modelling	—Unverified
Dutch Humor Detection by Generating Negative Examples	Oct 26, 2020	Binary ClassificationCommon Sense Reasoning	—Unverified
DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified
DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs	Aug 13, 2024	Dynamic Link PredictionDynamic Node Classification	—Unverified
DYNA: Disease-Specific Language Model for Variant Pathogenicity	May 31, 2024	Language ModelingLanguage Modelling	—Unverified
DynaMaR: Dynamic Prompt with Mask Token Representation	Jun 7, 2022	Language ModelingLanguage Modelling	—Unverified
Dynamical Isometry and a Mean Field Theory of RNNs: Gating Enables Signal Propagation in Recurrent Neural Networks	Jun 14, 2018	Language ModelingLanguage Modelling	—Unverified
Dynamically Hierarchy Revolution: DirNet for Compressing Recurrent Neural Network on Mobile Devices	Jun 4, 2018	Dictionary LearningLanguage Modeling	—Unverified
Dynamically Learned Test-Time Model Routing in Language Model Zoos with Service Level Guarantees	May 26, 2025	Language ModelingLanguage Modelling	—Unverified
Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints	Jan 12, 2024	DecoderLanguage Modeling	—Unverified
Dynamic Cell Structure via Recursive-Recurrent Neural Networks	May 25, 2019	Language ModellingNeural Architecture Search	—Unverified
Dynamic Code Orchestration: Harnessing the Power of Large Language Models for Adaptive Script Execution	Aug 7, 2024	Language ModelingLanguage Modelling	—Unverified
Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization	May 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dynamic Fusion: Attentional Language Model for Neural Machine Translation	Sep 11, 2019	Language ModelingLanguage Modelling	—Unverified
NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning	Sep 16, 2022	HallucinationLanguage Modeling	—Unverified
Dynamic Hypergraph-Enhanced Prediction of Sequential Medical Visits	Aug 8, 2024	Language ModelingLanguage Modelling	—Unverified
Dynamic Inference With Grounding Based Vision and Language Models	Jan 1, 2023	Language ModellingReferring Expression	—Unverified
Dynamic Information Sub-Selection for Decision Support	Oct 30, 2024	Language ModelingLanguage Modelling	—Unverified
Dynamic Label Name Refinement for Few-Shot Dialogue Intent Classification	Dec 20, 2024	In-Context Learningintent-classification	—Unverified
Dynamic Language Models for Streaming Text	Jan 1, 2014	ArticlesLanguage Modeling	—Unverified
Dynamic Large Language Models on Blockchains	Jul 20, 2023	Language ModelingLanguage Modelling	—Unverified
Dynamic Masking Rate Schedules for MLM Pretraining	May 24, 2023	Language ModelingLanguage Modelling	—Unverified
Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers	Sep 3, 2024	Language ModelingLanguage Modelling	—Unverified
Dynamic Multi-Agent Orchestration and Retrieval for Multi-Source Question-Answer Systems using Large Language Models	Dec 23, 2024	Language ModelingLanguage Modelling	—Unverified
Dynamic Parallel Tree Search for Efficient LLM Reasoning	Feb 22, 2025	Computational EfficiencyGSM8K	—Unverified

Show:10 25 50

← PrevPage 170 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified