Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6201–6250 of 17610 papers

Title	Date	Tasks	Status
A Semi-universal Pipelined Approach to the CoNLL 2017 UD Shared Task	Aug 1, 2017	Cross-Lingual TransferLanguage Modeling	—Unverified
A Sequence-to-Sequence Approach for Arabic Pronoun Resolution	May 19, 2023	Language ModelingLanguage Modelling	—Unverified
ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization	Nov 12, 2024	Language ModelingLanguage Modelling	—Unverified
ASGen: Answer-containing Sentence Generation to Pre-Train Question Generator for Scale-up Data in Question Answering	Sep 25, 2019	Language ModelingLanguage Modelling	—Unverified
ASGM-KG: Unveiling Alluvial Gold Mining Through Knowledge Graphs	Aug 16, 2024	Knowledge GraphsLanguage Modelling	—Unverified
ASGO: Adaptive Structured Gradient Optimization	Mar 26, 2025	Language ModelingLanguage Modelling	—Unverified
A Shift-Reduce Parsing Algorithm for Phrase-based String-to-Dependency Translation	Aug 1, 2013	Language ModellingMachine Translation	—Unverified
A Side-by-side Comparison of Transformers for English Implicit Discourse Relation Classification	Jul 7, 2023	Discourse ParsingImplicit Discourse Relation Classification	—Unverified
A Simple and Effective Method for Injecting Word-Level Information into Character-Aware Neural Language Models	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified
A Simple and Efficient Method To Generate Word Sense Representations	Dec 18, 2014	Language ModelingLanguage Modelling	—Unverified
A Simple and Efficient Probabilistic Language model for Code-Mixed Text	Jun 29, 2021	Information RetrievalLanguage Identification	—Unverified
A Simple Architecture for Enterprise Large Language Model Applications based on Role based security and Clearance Levels using Retrieval-Augmented Generation or Mixture of Experts	Jul 9, 2024	Language ModelingLanguage Modelling	—Unverified
N-Shot Learning for Augmenting Task-Oriented Dialogue State Tracking	Feb 27, 2021	Data AugmentationDialogue State Tracking	—Unverified
A Simple but Effective Method to Incorporate Multi-turn Context with BERT for Conversational Machine Comprehension	May 30, 2019	Language ModelingLanguage Modelling	—Unverified
A Simple Cache Model for Image Recognition	Dec 1, 2018	General ClassificationLanguage Modeling	—Unverified
Accelerating Multilingual Language Model for Excessively Tokenized Languages	Jan 19, 2024	Language ModelingLanguage Modelling	—Unverified
A Simple Fully Connected Network for Composing Word Embeddings from Characters	Jan 1, 2018	Language ModelingLanguage Modelling	—Unverified
A Simple Language Model based on PMI Matrix Approximations	Jul 17, 2017	Language ModelingLanguage Modelling	—Unverified
A Simple Model for Distantly Supervised Relation Extraction	Oct 1, 2022	Language ModelingLanguage Modelling	—Unverified
A Simple, Yet Effective Approach to Finding Biases in Code Generation	Oct 31, 2022	Causal Language ModelingCode Generation	—Unverified
A Simple yet Efficient Ensemble Approach for AI-generated Text Detection	Nov 6, 2023	Language ModellingLarge Language Model	—Unverified
Multiperiodic Processes: Ergodic Sources with a Sublinear Entropy	Feb 17, 2023	Language ModelingLanguage Modelling	—Unverified
Ask Language Model to Clean Your Noisy Translation Data	Oct 20, 2023	Language ModelingLanguage Modelling	—Unverified
"Ask Me Anything": How Comcast Uses LLMs to Assist Agents in Real Time	May 1, 2024	Language ModellingLarge Language Model	—Unverified
Just Ask One More Time! Self-Agreement Improves Reasoning of Language Models in (Almost) All Scenarios	Nov 14, 2023	AllDecoder	—Unverified
Ask Optimal Questions: Aligning Large Language Models with Retriever's Preference in Conversational Search	Feb 19, 2024	Conversational SearchLanguage Modeling	—Unverified
A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets	Sep 9, 2024	Data AugmentationLanguage Modelling	—Unverified
ASOBEK at SemEval-2016 Task 1: Sentence Representation with Character N-gram Embeddings for Semantic Textual Similarity	Jun 1, 2016	Language ModelingLanguage Modelling	—Unverified
A Span Extraction Approach for Information Extraction on Visually-Rich Documents	Jun 2, 2021	Language ModelingLanguage Modelling	—Unverified
Aspect-based Academic Search using Domain-specific KB	Jan 29, 2020	Language ModelingLanguage Modelling	—Unverified
Aspect-Based Sentiment Analysis using BERT	Sep 1, 2019	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
Aspect-Based Sentiment Analysis using Local Context Focus Mechanism with DeBERTa	Jul 6, 2022	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
Aspect Oriented Suggestion Extraction from Online Reviews	Dec 15, 2021	Aspect ExtractionLanguage Modelling	—Unverified
A Speed Odyssey for Deployable Quantization of LLMs	Nov 16, 2023	Language ModelingLanguage Modelling	—Unverified
A spelling correction model for end-to-end speech recognition	Feb 19, 2019	Language ModelingLanguage Modelling	—Unverified
AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework	Jun 20, 2024	De-identificationLanguage Modelling	—Unverified
A Split-and-Privatize Framework for Large Language Model Fine-Tuning	Dec 25, 2023	Language ModelingLanguage Modelling	—Unverified
ASR4REAL: An extended benchmark for speech models	Oct 16, 2021	DiversityLanguage Modeling	—Unverified
ASR Adaptation for E-commerce Chatbots using Cross-Utterance Context and Multi-Task Language Modeling	Jun 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ASRank: Zero-Shot Re-Ranking with Answer Scent for Document Retrieval	Jan 25, 2025	Language ModelingLanguage Modelling	—Unverified
ASR for Documenting Acutely Under-Resourced Indigenous Languages	May 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks	Jul 5, 2022	Language ModelingLanguage Modelling	—Unverified
ASR Rescoring and Confidence Estimation with ELECTRA	Oct 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Assamese-English Bilingual Machine Translation	Jul 8, 2014	Language ModelingLanguage Modelling	—Unverified
Assessing and Enhancing the Robustness of LLM-based Multi-Agent Systems Through Chaos Engineering	May 6, 2025	Decision MakingLanguage Modeling	—Unverified
Assessing and Understanding Creativity in Large Language Models	Jan 23, 2024	Language ModellingLarge Language Model	—Unverified
Assessing Discourse Relations in Language Generation from GPT-2	Apr 26, 2020	Language ModelingLanguage Modelling	—Unverified
Assessing Generalization for Subpopulation Representative Modeling via In-Context Learning	Feb 12, 2024	In-Context LearningLanguage Modeling	—Unverified
Assessing GPT4-V on Structured Reasoning Tasks	Dec 13, 2023	Code GenerationLanguage Modeling	—Unverified
Assessing Out-of-Domain Language Model Performance from Few Examples	Oct 13, 2022	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 125 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified