Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12301–12350 of 17610 papers

Title	Date	Tasks	Status	Hype
Hierarchical Transformers Are More Efficient Language Models	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Commonsense Knowledge Transfer for Pre-trained Language Models	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Feasibility of BERT Embeddings For Domain-Specific Knowledge Mining	Jan 16, 2022	BenchmarkingLanguage Modelling	—Unverified	0
Cross-Lingual Speaker Identification from Weak Local Evidence	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Discourse-Aware Prompt Design for Text Generation	Jan 16, 2022	BlockingConditional Text Generation	—Unverified	0
Causal Distillation for Language Models	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Efficient Machine Translation Domain Adaptation	Jan 16, 2022	Domain AdaptationLanguage Modeling	—Unverified	0
Efficient Hierarchical Domain Adaptation for Pretrained Language Models	Jan 16, 2022	Domain AdaptationLanguage Modeling	—Unverified	0
Improving Coherence of Language Model Generation with Latent Semantic State	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Disaggregating Hops: Can We Guide a Multi-Hop Reasoning Language Model to Incrementally Learn at each Hop?	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Deep Continuous Prompt for Contrastive Learning of Sentence Embeddings	Jan 16, 2022	Contrastive LearningLanguage Modeling	—Unverified	0
Data Augmentation for Biomedical Factoid Question Answering	Jan 16, 2022	Data AugmentationInformation Retrieval	—Unverified	0
CL-ReKD: Cross-lingual Knowledge Distillation for Multilingual Retrieval Question Answering	Jan 16, 2022	Knowledge DistillationLanguage Modeling	—Unverified	0
Breaking Character: Are Subwords Good Enough for MRLs After All?	Jan 16, 2022	AllExtractive Question-Answering	—Unverified	0
Hardness Masking via Auto-Regressive Language Model	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
EiCi: A New Method of Dynamic Embedding Incorporating Contextual Information in Chinese NER	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Applying SoftTriple Loss for Supervised Language Model Fine Tuning	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
A Masked Segmental Language Model for Unsupervised Natural Language Segmentation	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Fine-tuning Strategies for Domain Specific Question Answering under Low Annotation Budget Constraints	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
When Does Syntax Mediate Neural Language Model Performance? Evidence from Dropout Probes	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
When More is not Necessary Better: Multilingual Auxiliary Tasks for Zero-Shot Cross-Lingual Transfer of Hate Speech Detection Models	Jan 16, 2022	Cross-Lingual TransferHate Speech Detection	—Unverified	0
Transferring Knowledge from Structure-aware Self-attention Language Model to Sequence-to-Sequence Semantic Parsing	Jan 16, 2022	Code GenerationKnowledge Distillation	—Unverified	0
Knowledge-Grounded Dialogue Generation with a Unified Knowledge Representation	Jan 16, 2022	Dialogue GenerationLanguage Modeling	—Unverified	0
MetaICL: Learning to Learn In Context	Jan 16, 2022	Few-Shot LearningIn-Context Learning	—Unverified	0
Learning Cross-Lingual IR from an English Retriever	Jan 16, 2022	Cross-Lingual Information RetrievalInformation Retrieval	—Unverified	0
Minimally-Supervised Relation Induction from Pre-trained Language Model	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Retrieving Visual Facts For Few-Shot Visual Question Answering	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Seq-GAN-BERT：Sequence Generative Adversarial Learning for Low-resource Name Entity Recognition	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
ProcessBERT: Towards Equivalence Judgment of Variable Definitions among Multiple Engineering Documents	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Representation Learning for Conversational Data using Discourse Mutual Information Maximization	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Learning To Retrieve Prompts for In-Context Learning	Jan 16, 2022	In-Context LearningLanguage Modeling	—Unverified	0
Quantifying Adaptability in Pre-trained Language Models with 500 Tasks	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Towards Interactive Language Modeling	Jan 16, 2022	Language AcquisitionLanguage Modeling	—Unverified	0
STT: Soft Template Tuning for Few-Shot Learning	Jan 16, 2022	Few-Shot LearningLanguage Modeling	—Unverified	0
Representation Learning for Resource-Constrained Keyphrase Generation	Jan 16, 2022	DenoisingKeyphrase Generation	—Unverified	0
Progressive Class Semantic Matching for Semi-supervised Text Classification	Jan 16, 2022	ClassificationLanguage Modeling	—Unverified	0
Multi-Stage Pre-Training for Math-Understanding: ^2(AL)BERT	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Low Resource Style Transfer via Domain Adaptive Meta Learning	Jan 16, 2022	General KnowledgeLanguage Modeling	—Unverified	0
PPL-MCTS: Constrained Textual Generation Through Discriminator-Guided MCTS Decoding	Jan 16, 2022	Language ModellingRe-Ranking	—Unverified	0
A Dual Prompt Learning Framework for Few-Shot Dialogue State Tracking	Jan 15, 2022	Dialogue State TrackingLanguage Modeling	—Unverified	0
Kformer: Knowledge Injection in Transformer Feed-Forward Layers	Jan 15, 2022	Language ModellingMedical Question Answering	CodeCode Available	1
A Novel Multi-Task Learning Method for Symbolic Music Emotion Recognition	Jan 15, 2022	Emotion RecognitionLanguage Modeling	—Unverified	0
The Dark Side of the Language: Pre-trained Transformers in the DarkNet	Jan 14, 2022	Domain AdaptationLanguage Modeling	—Unverified	0
Applying a Generic Sequence-to-Sequence Model for Simple and Effective Keyphrase Generation	Jan 14, 2022	Keyphrase GenerationLanguage Modeling	—Unverified	0
Eliciting Knowledge from Pretrained Language Models for Prototypical Prompt Verbalizer	Jan 14, 2022	ClassificationContrastive Learning	CodeCode Available	1
Datasheet for the Pile	Jan 13, 2022	Language ModelingLanguage Modelling	CodeCode Available	3
Accurate identification of bacteriophages from metagenomic data using Transformer	Jan 13, 2022	Language Modelling	CodeCode Available	1
Multi-task Pre-training Language Model for Semantic Network Completion	Jan 13, 2022	Contrastive LearningData Augmentation	CodeCode Available	0
Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training	Jan 11, 2022	DecoderImage Captioning	—Unverified	0

Show:10 25 50

← PrevPage 247 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified