Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16251–16300 of 17610 papers

Title	Date	Tasks	Status
Toward a Deeper Understanding: RetNet Viewed through Convolution	Sep 11, 2023	Language ModelingLanguage Modelling	CodeCode Available
Do Large Language Model Understand Multi-Intent Spoken Language ?	Mar 7, 2024	Language ModelingLanguage Modelling	CodeCode Available
Few-shot learning through contextual data augmentation	Mar 31, 2021	Data AugmentationFew-Shot Learning	CodeCode Available
Clustering of Deep Contextualized Representations for Summarization of Biomedical Texts	Aug 6, 2019	ClusteringLanguage Modeling	CodeCode Available
Do Large Language Models Solve ARC Visual Analogies Like People Do?	Mar 13, 2024	ARCLanguage Modeling	CodeCode Available
Analysing Word Representation from the Input and Output Embeddings in Neural Network Language Models	Nov 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
Do Large Language Models know what humans know?	Sep 4, 2022	AttributeLanguage Modeling	CodeCode Available
On the Usefulness of Embeddings, Clusters and Strings for Text Generator Evaluation	May 31, 2022	Language ModellingText Generation	CodeCode Available
InRanker: Distilled Rankers for Zero-shot Information Retrieval	Jan 12, 2024	Information RetrievalLanguage Modeling	CodeCode Available
Few-Shot NLG with Pre-Trained Language Model	Apr 21, 2019	Few-Shot LearningLanguage Modeling	CodeCode Available
Identifying Nuances in Fake News vs. Satire: Using Semantic and Linguistic Cues	Oct 2, 2019	Language ModellingMisinformation	CodeCode Available
Do language models plan ahead for future tokens?	Apr 1, 2024	Language ModelingLanguage Modelling	CodeCode Available
Attention-Seeker: Dynamic Self-Attention Scoring for Unsupervised Keyphrase Extraction	Sep 17, 2024	Keyphrase ExtractionLanguage Modeling	CodeCode Available
Attention as a Guide for Simultaneous Speech Translation	Dec 15, 2022	DecoderLanguage Modeling	CodeCode Available
Do Language Models Know When They're Hallucinating References?	May 29, 2023	HallucinationLanguage Modeling	CodeCode Available
In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search	Nov 13, 2023	Language ModellingNatural Language Inference	CodeCode Available
Drop Dropout on Single-Epoch Language Model Pretraining	May 30, 2025	Language ModelingLanguage Modelling	CodeCode Available
DropMicroFluidAgents (DMFAs): Autonomous Droplet Microfluidic Research Framework Through Large Language Model Agents	Dec 30, 2024	Language ModelingLanguage Modelling	CodeCode Available
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD	Apr 9, 2024	4kLanguage Modeling	CodeCode Available
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization	Nov 21, 2024	Language ModelingLanguage Modelling	CodeCode Available
Grid Long Short-Term Memory	Jul 6, 2015	Language ModellingMemorization	CodeCode Available
Do Language Models Exhibit Human-like Structural Priming Effects?	Jun 7, 2024	Language ModelingLanguage Modelling	CodeCode Available
DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs	May 18, 2023	Drug DiscoveryGraph Neural Network	CodeCode Available
DrugImproverGPT: A Large Language Model for Drug Optimization with Fine-Tuning via Structured Policy Optimization	Feb 11, 2025	Language ModelingLanguage Modelling	CodeCode Available
Few-Shot Upsampling for Protest Size Detection	May 24, 2021	Language ModellingQuestion Answering	CodeCode Available
Identifying Reasons for Contraceptive Switching from Real-World Data Using Large Language Models	Feb 6, 2024	Language ModellingLarge Language Model	CodeCode Available
DrugTar Improves Druggability Prediction by Integrating Large Language Models and Gene Ontologies	Sep 24, 2024	Language ModelingLanguage Modelling	CodeCode Available
DSC IIT-ISM at SemEval-2020 Task 6: Boosting BERT with Dependencies for Definition Extraction	Sep 17, 2020	Definition ExtractionLanguage Modeling	CodeCode Available
Do Images really do the Talking? Analysing the significance of Images in Tamil Troll meme classification	Aug 9, 2021	Language ModelingLanguage Modelling	CodeCode Available
DSGram: Dynamic Weighting Sub-Metrics for Grammatical Error Correction in the Era of Large Language Models	Dec 17, 2024	Grammatical Error CorrectionLanguage Modeling	CodeCode Available
Attacks on Third-Party APIs of Large Language Models	Apr 24, 2024	Language ModelingLanguage Modelling	CodeCode Available
Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions	Oct 10, 2024	Language ModelingLanguage Modelling	CodeCode Available
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check	Oct 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
Active Inference for Self-Organizing Multi-LLM Systems: A Bayesian Thermodynamic Approach to Adaptation	Dec 10, 2024	Language ModelingLanguage Modelling	CodeCode Available
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods	Nov 18, 2024	Language ModelingLanguage Modelling	CodeCode Available
DS-TOD: Efficient Domain Specialization for Task Oriented Dialog	Oct 15, 2021	dialog state trackingLanguage Modeling	CodeCode Available
FGeo-DRL: Deductive Reasoning for Geometric Problems through Deep Reinforcement Learning	Feb 14, 2024	AI AgentDeep Reinforcement Learning	CodeCode Available
DS-TOD: Efficient Domain Specialization for Task-Oriented Dialog	May 1, 2022	dialog state trackingLanguage Modeling	CodeCode Available
Does Transliteration Help Multilingual Language Modeling?	Jan 29, 2022	DiversityLanguage Modeling	CodeCode Available
Does Commonsense help in detecting Sarcasm?	Sep 17, 2021	Language ModelingLanguage Modelling	CodeCode Available
Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks	Jan 28, 2025	Language ModelingLanguage Modelling	CodeCode Available
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents	May 16, 2025	FormLanguage Modeling	CodeCode Available
Document Modeling with External Attention for Sentence Extraction	Jul 1, 2018	Answer SelectionDocument Summarization	CodeCode Available
A Transformer with Stack Attention	May 7, 2024	Language ModelingLanguage Modelling	CodeCode Available
FIDAVL: Fake Image Detection and Attribution using Vision-Language Model	Aug 22, 2024	AttributeFake Image Detection	CodeCode Available
Document Informed Neural Autoregressive Topic Models	Aug 11, 2018	Language ModelingLanguage Modelling	CodeCode Available
A Training Data Recipe to Accelerate A* Search with Language Models	Jul 13, 2024	Heuristic SearchLanguage Modelling	CodeCode Available
Fidelity-Enriched Contrastive Search: Reconciling the Faithfulness-Diversity Trade-Off in Text Generation	Oct 23, 2023	Abstractive Text SummarizationDialogue Generation	CodeCode Available
A Toolkit for Efficient Learning of Lexical Units for Speech Recognition	May 1, 2014	Information RetrievalLanguage Modeling	CodeCode Available
Dual Learning for Machine Translation	Nov 1, 2016	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 326 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified