Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17101–17150 of 17610 papers

Title	Date	Tasks	Status
Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition	Mar 18, 2019	DecoderHandwritten Text Recognition	CodeCode Available
A Lightweight Constrained Generation Alternative for Query-focused Summarization	Apr 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
BIOptimus: Pre-training an Optimal Biomedical Language Model with Curriculum Learning for Named Entity Recognition	Aug 16, 2023	Language ModelingLanguage Modelling	CodeCode Available
Intent Factored Generation: Unleashing the Diversity in Your Language Model	Jun 11, 2025	ArticlesDiversity	CodeCode Available
Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries	Feb 13, 2024	Language ModellingText to SQL	CodeCode Available
Biomedical Language Models are Robust to Sub-optimal Tokenization	Jun 30, 2023	Entity LinkingLanguage Modeling	CodeCode Available
WikiCREM: A Large Unsupervised Corpus for Coreference Resolution	Aug 21, 2019	coreference-resolutionCoreference Resolution	CodeCode Available
Conveyor: Efficient Tool-aware LLM Serving with Tool Partial Execution	May 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
Generating Medical Prescriptions with Conditional Transformer	Oct 30, 2023	2kLanguage Modelling	CodeCode Available
Generating Memorable Mnemonic Encodings of Numbers	May 7, 2017	Language ModelingLanguage Modelling	CodeCode Available
Intention Recognition in Real-Time Interactive Navigation Maps	Feb 24, 2025	Intent DetectionLanguage Modeling	CodeCode Available
An Invariant Learning Characterization of Controlled Text Generation	May 31, 2023	AttributeLanguage Modeling	CodeCode Available
Alibaba-Translate China's Submission for WMT 2022 Quality Estimation Shared Task	Oct 18, 2022	Language ModelingLanguage Modelling	CodeCode Available
Converting the Point of View of Messages Spoken to Virtual Assistants	Oct 6, 2020	Constituency ParsingLanguage Modelling	CodeCode Available
NegatER: Unsupervised Discovery of Negatives in Commonsense Knowledge Bases	Nov 15, 2020	Data AugmentationLanguage Modeling	CodeCode Available
Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task	Oct 18, 2022	Language ModelingLanguage Modelling	CodeCode Available
Generating Prototypes for Contradiction Detection Using Large Language Models and Linguistic Rules	Oct 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
Evaluating the Validity of Word-level Adversarial Attacks with Large Language Models	Aug 15, 2024	Adversarial AttackLanguage Modeling	CodeCode Available
Evaluating Transformer Language Models on Arithmetic Operations Using Number Decomposition	Apr 21, 2023	Language ModelingLanguage Modelling	CodeCode Available
Generating Question-Answer Hierarchies	Jun 6, 2019	Language ModelingLanguage Modelling	CodeCode Available
An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP)	Feb 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
Generating Repetitions with Appropriate Repeated Words	Jul 3, 2022	Language ModelingLanguage Modelling	CodeCode Available
Generating Sentences by Editing Prototypes	Sep 26, 2017	Language ModelingLanguage Modelling	CodeCode Available
Biomedical Event Extraction as Multi-turn Question Answering	Nov 1, 2020	Event ExtractionKnowledge Base Population	CodeCode Available
An Imitation Learning Approach to Unsupervised Parsing	Jun 5, 2019	Imitation LearningLanguage Modeling	CodeCode Available
Conversations in Galician: a Large Language Model for an Underrepresented Language	Nov 7, 2023	Language ModelingLanguage Modelling	CodeCode Available
Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences	Aug 31, 2020	DiversityLanguage Modeling	CodeCode Available
Inductive-bias Learning: Generating Code Models with Large Language Model	Aug 19, 2023	Code GenerationIn-Context Learning	CodeCode Available
Conversational Feedback in Scripted versus Spontaneous Dialogues: A Comparative Analysis	Sep 27, 2023	Language ModelingLanguage Modelling	CodeCode Available
How Long Is Enough? Exploring the Optimal Intervals of Long-Range Clinical Note Language Modeling	Oct 25, 2022	Language ModelingLanguage Modelling	CodeCode Available
Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling	Sep 15, 2024	Causal Language ModelingDe-identification	CodeCode Available
Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings	Jun 24, 2024	Conditional Text GenerationLanguage Modelling	CodeCode Available
Bilingual Lexicon Induction through Unsupervised Machine Translation	Jul 24, 2019	Bilingual Lexicon InductionLanguage Modeling	CodeCode Available
Conversational AI Powered by Large Language Models Amplifies False Memories in Witness Interviews	Aug 8, 2024	ChatbotLanguage Modelling	CodeCode Available
Generating Text through Adversarial Training using Skip-Thought Vectors	Aug 27, 2018	Conditional Text GenerationLanguage Modelling	CodeCode Available
Evaluation of sentence embeddings in downstream and linguistic probing tasks	Jun 16, 2018	Language ModelingLanguage Modelling	CodeCode Available
Generating Zero-shot Abstractive Explanations for Rumour Verification	Jan 23, 2024	Few-Shot LearningInformativeness	CodeCode Available
"Bilingual Expert" Can Find Translation Errors	Jul 25, 2018	Language ModelingLanguage Modelling	CodeCode Available
Evaluation Phonemic Transcription of Low-Resource Tonal Languages for Language Documentation	May 1, 2018	Acoustic ModellingLanguage Modeling	CodeCode Available
Converge to the Truth: Factual Error Correction via Iterative Constrained Editing	Nov 22, 2022	Fact VerificationLanguage Modeling	CodeCode Available
Adding A Filter Based on The Discriminator to Improve Unconditional Text Generation	Apr 5, 2020	Language ModellingText Generation	CodeCode Available
Event-based clinical findings extraction from radiology reports with pre-trained language model	Dec 27, 2021	AnatomyComputed Tomography (CT)	CodeCode Available
Controlling the Imprint of Passivization and Negation in Contextualized Representations	Nov 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
Bilingual alignment transfers to multilingual alignment for unsupervised parallel text mining	Apr 15, 2021	Language ModelingLanguage Modelling	CodeCode Available
When Low Resource NLP Meets Unsupervised Language Model: Meta-pretraining Then Meta-learning for Few-shot Text Classification	Aug 22, 2019	Few-Shot LearningFew-Shot Text Classification	CodeCode Available
Event Detection as Question Answering with Entity Information	Apr 14, 2021	Event DetectionLanguage Modeling	CodeCode Available
Bilingual Alignment Pre-Training for Zero-Shot Cross-Lingual Transfer	Jun 3, 2021	Cross-Lingual TransferLanguage Modelling	CodeCode Available
EventGround: Narrative Reasoning by Grounding to Eventuality-centric Knowledge Graphs	Mar 30, 2024	Graph Neural NetworkKnowledge Graphs	CodeCode Available
Event Knowledge Incorporation with Posterior Regularization for Event-Centric Question Answering	May 8, 2023	Language ModellingQuestion Answering	CodeCode Available
Bilateral Personalized Dialogue Generation with Contrastive Learning	Jun 15, 2021	Contrastive LearningDialogue Generation	CodeCode Available

Show:10 25 50

← PrevPage 343 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified