Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12901–12950 of 17610 papers

Title	Date	Tasks	Status	Hype
PPL-MCTS: Constrained Textual Generation Through Discriminator-Guided MCTS Decoding	Sep 28, 2021	Language ModellingRe-Ranking	CodeCode Available	1
Factorized Neural Transducer for Efficient Language Model Adaptation	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
FQuAD2.0: French Question Answering and knowing that you know nothing	Sep 27, 2021	ArticlesFQuAD	—Unverified	0
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3
Effective Use of Graph Convolution Network and Contextual Sub-Tree forCommodity News Event Extraction	Sep 27, 2021	Event ExtractionLanguage Modeling	CodeCode Available	1
Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations	Sep 27, 2021	Contrastive LearningLanguage Modelling	CodeCode Available	1
XLM-K: Improving Cross-Lingual Language Model Pre-training with Multilingual Knowledge	Sep 26, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Extracting and Inferring Personal Attributes from Dialogue	Sep 26, 2021	AttributeLanguage Modeling	CodeCode Available	1
DziriBERT: a Pre-trained Language Model for the Algerian Dialect	Sep 25, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Language Model Priming for Cross-Lingual Event Extraction	Sep 25, 2021	Event ExtractionLanguage Modeling	—Unverified	0
Learning to Selectively Learn for Weakly-supervised Paraphrase Generation	Sep 25, 2021	Language ModelingLanguage Modelling	—Unverified	0
A Proposal of Automatic Error Correction in Text	Sep 24, 2021	Information RetrievalLanguage Modelling	—Unverified	0
Identification of Enzymatic Active Sites with Unsupervised Language Modeling	Sep 24, 2021	Language ModelingLanguage Modelling	—Unverified	0
MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling	Sep 24, 2021	Image ReconstructionLanguage Modeling	—Unverified	0
Predicting Attention Sparsity in Transformers	Sep 24, 2021	DecoderLanguage Modeling	—Unverified	0
A Diversity-Enhanced and Constraints-Relaxed Augmentation for Low-Resource Classification	Sep 24, 2021	Data AugmentationDiversity	—Unverified	0
Cross-Lingual Language Model Meta-Pretraining	Sep 23, 2021	Cross-Lingual TransferLanguage Modeling	—Unverified	0
LSTM Hyper-Parameter Selection for Malware Detection: Interaction Effects and Hierarchical Selection Approach	Sep 23, 2021	Intrusion DetectionLanguage Modeling	—Unverified	0
Zero-Shot Information Extraction as a Unified Text-to-Triple Translation	Sep 23, 2021	Factual probeLanguage Modeling	CodeCode Available	1
BFClass: A Backdoor-free Text Classification Framework	Sep 22, 2021	Backdoor AttackClassification	—Unverified	0
Small-Bench NLP: Benchmark for small single GPU trained models in Natural Language Processing	Sep 22, 2021	GPULanguage Modelling	CodeCode Available	1
Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context Prediction Network	Sep 22, 2021	Knowledge DistillationLanguage Modeling	—Unverified	0
Pix2seq: A Language Modeling Framework for Object Detection	Sep 22, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training Encoder	Sep 22, 2021	Dialogue UnderstandingEmotion Recognition	—Unverified	0
Distilling Relation Embeddings from Pre-trained Language Models	Sep 21, 2021	Knowledge GraphsLanguage Modeling	—Unverified	0
Learning Domain Specific Language Models for Automatic Speech Recognition through Machine Translation	Sep 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The Trade-offs of Domain Adaptation for Neural Language Models	Sep 21, 2021	Domain AdaptationLanguage Modeling	—Unverified	0
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models	Sep 21, 2021	Handwritten Text RecognitionLanguage Modeling	CodeCode Available	1
BERTweetFR : Domain Adaptation of Pre-Trained Language Models for French Tweets	Sep 21, 2021	Domain AdaptationLanguage Modeling	—Unverified	0
Influence of ASR and Language Model on Alzheimer's Disease Detection	Sep 20, 2021	Alzheimer's Disease DetectionLanguage Modeling	—Unverified	0
JobBERT: Understanding Job Titles through Skills	Sep 20, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Learning Natural Language Generation from Scratch	Sep 20, 2021	Language ModelingLanguage Modelling	—Unverified	0
Adversarial Training with Contrastive Learning in NLP	Sep 19, 2021	Contrastive LearningLanguage Modeling	—Unverified	0
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition	Sep 19, 2021	Language ModelingLanguage Modelling	—Unverified	0
Multilingual Molecular Representation Learning via Contrastive Pre-training	Sep 18, 2021	Contrastive LearningLanguage Modeling	—Unverified	0
Commonsense Knowledge-Augmented Pretrained Language Models for Causal Reasoning Classification	Sep 17, 2021	ClassificationCommonsense Causal Reasoning	—Unverified	0
BART-light: One Decoder Layer Is Enough	Sep 17, 2021	DecoderLanguage Modeling	—Unverified	0
Machine Reading Comprehension: Generative or Extractive Reader?	Sep 17, 2021	DecoderLanguage Modeling	—Unverified	0
Relating Neural Text Degeneration to Exposure Bias	Sep 17, 2021	Language ModelingLanguage Modelling	—Unverified	0
Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy	Sep 17, 2021	Code CompletionCode Generation	—Unverified	0
SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis	Sep 17, 2021	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified	0
Language Models as a Knowledge Source for Cognitive Agents	Sep 17, 2021	Language ModellingNatural Language Inference	—Unverified	0
Primer: Searching for Efficient Transformers for Language Modeling	Sep 17, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
Distilling Linguistic Context for Language Model Compression	Sep 17, 2021	Knowledge DistillationLanguage Modeling	CodeCode Available	1
Does Commonsense help in detecting Sarcasm?	Sep 17, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
Exploring Multitask Learning for Low-Resource AbstractiveSummarization	Sep 17, 2021	Abstractive Text SummarizationExtractive Summarization	—Unverified	0
Generative Pre-Training from Molecules	Sep 16, 2021	Feature EngineeringGeneral Knowledge	CodeCode Available	1
Deep Algorithmic Question Answering: Towards a Compositionally Hybrid AI for Algorithmic Reasoning	Sep 16, 2021	image-classificationImage Classification	—Unverified	0
A Bag of Tricks for Dialogue Summarization	Sep 16, 2021	ArticlesLanguage Modeling	—Unverified	0
Regularized Training of Nearest Neighbor Language Models	Sep 16, 2021	L2 RegularizationLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 259 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified