Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14551–14600 of 17610 papers

Title	Date	Tasks	Status	Hype
Segatron: Segment-aware Transformer for Language Modeling and Understanding	Jun 2, 2020	Language ModelingLanguage Modelling	—Unverified	0
Position Masking for Language Models	Jun 2, 2020	Language ModelingLanguage Modelling	—Unverified	0
FlauBERT : des mod\`eles de langue contextualis\'es pr\'e-entra\^ \'es pour le fran (FlauBERT : Unsupervised Language Model Pre-training for French)	Jun 1, 2020	FLUELanguage Modeling	CodeCode Available	0
Contextualized French Language Models for Biomedical Named Entity Recognition	Jun 1, 2020	AnatomyLanguage Modeling	—Unverified	0
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features	Jun 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LRG at SemEval-2020 Task 7: Assessing the Ability of BERT and Derivative Models to Perform Short-Edits based Humor Grading	May 31, 2020	Language ModelingLanguage Modelling	—Unverified	0
Massive Choice, Ample Tasks (MaChAmp): A Toolkit for Multi-task Learning in NLP	May 29, 2020	Dependency ParsingLanguage Modeling	CodeCode Available	1
Language Models are Few-Shot Learners	May 28, 2020	answerability predictionArticles	CodeCode Available	3
Unsupervised Relation Extraction from Language Models using Constrained Cloze Completion	May 27, 2020	Language ModelingLanguage Modelling	—Unverified	0
TIME: Text and Image Mutual-Translation Adversarial Networks	May 27, 2020	Generative Adversarial NetworkImage Captioning	—Unverified	0
Syntactic Structure Distillation Pretraining For Bidirectional Encoders	May 27, 2020	Knowledge DistillationLanguage Modeling	—Unverified	0
Self-Training for Unsupervised Parsing with PRPN	May 27, 2020	Language ModelingLanguage Modelling	—Unverified	0
qDKT: Question-centric Deep Knowledge Tracing	May 25, 2020	Knowledge TracingLanguage Modeling	—Unverified	0
When does MAML Work the Best? An Empirical Study on Model-Agnostic Meta-Learning in NLP Applications	May 24, 2020	Few-Shot Text ClassificationLanguage Modeling	—Unverified	0
Improving Segmentation for Technical Support Problems	May 22, 2020	Language ModelingLanguage Modelling	CodeCode Available	0
L2R2: Leveraging Ranking for Abductive Reasoning	May 22, 2020	Language ModellingLearning-To-Rank	CodeCode Available	1
Living Machines: A study of atypical animacy	May 22, 2020	Language ModelingLanguage Modelling	CodeCode Available	0
Leveraging Text Data Using Hybrid Transformer-LSTM Based End-to-End ASR in Transfer Learning	May 21, 2020	Cross-Lingual TransferDecoder	—Unverified	0
Text-to-Text Pre-Training for Data-to-Text Tasks	May 21, 2020	Data-to-Text GenerationLanguage Modeling	CodeCode Available	1
ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition	May 21, 2020	Data AugmentationDiversity	—Unverified	0
Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems	May 20, 2020	Contrastive LearningFairness	—Unverified	0
SciSight: Combining faceted navigation and research group detection for COVID-19 exploratory scientific search	May 20, 2020	Language Modelling	—Unverified	0
Investigation of Large-Margin Softmax in Neural Language Modeling	May 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
BERTweet: A pre-trained language model for English Tweets	May 20, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Early Stage LM Integration Using Local and Global Log-Linear Combination	May 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving Proper Noun Recognition in End-to-End ASR By Customization of the MWER Loss Criterion	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Human Instruction-Following with Deep Reinforcement Learning via Transfer-Learning from Text	May 19, 2020	Deep Reinforcement LearningInstruction Following	—Unverified	0
Human Sentence Processing: Recurrence or Attention?	May 19, 2020	Language ModellingRetrieval	CodeCode Available	1
Table Search Using a Deep Contextualized Language Model	May 19, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Iterative Pseudo-Labeling for Speech Recognition	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
The NTNU System at the Interspeech 2020 Non-Native Children's Speech ASR Challenge	May 18, 2020	Data AugmentationDiversity	—Unverified	0
Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for Counterfactual Statement Analysis	May 18, 2020	counterfactualGeneral Classification	—Unverified	0
Approaches to Improving Recognition of Underrepresented Named Entities in Hybrid ASR Systems	May 18, 2020	Language ModelingLanguage Modelling	—Unverified	0
GPT-too: A language-model-first approach for AMR-to-text generation	May 18, 2020	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available	1
How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?	May 17, 2020	Language ModelingLanguage Modelling	CodeCode Available	0
Conformer: Convolution-augmented Transformer for Speech Recognition	May 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3
Towards classification parity across cohorts	May 16, 2020	ClassificationClustering	—Unverified	0
MicroNet for Efficient Language Modeling	May 16, 2020	Knowledge DistillationLanguage Modeling	CodeCode Available	1
Spelling Error Correction with Soft-Masked BERT	May 15, 2020	Chinese Spelling Error CorrectionLanguage Modeling	CodeCode Available	1
Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model	May 15, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Challenges in Emotion Style Transfer: An Exploration with a Lexical Substitution Pipeline	May 15, 2020	Language ModellingSentence	CodeCode Available	0
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation	May 14, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-agent Communication meets Natural Language: Synergies between Functional and Structural Language Learning	May 14, 2020	Language ModelingLanguage Modelling	—Unverified	0
Large Scale Multi-Actor Generative Dialog Modeling	May 13, 2020	Goal-Oriented DialogLanguage Modelling	—Unverified	0
Towards Hate Speech Detection at Large via Deep Generative Modeling	May 13, 2020	DiversityHate Speech Detection	CodeCode Available	0
Parallel Corpus Filtering via Pre-trained Language Models	May 13, 2020	Language ModelingLanguage Modelling	—Unverified	0
Document-Level Event Role Filler Extraction using Multi-Granularity Contextualized Encoding	May 13, 2020	Document-level Event ExtractionEvent Extraction	CodeCode Available	1
A Mixture of h-1 Heads is Better than h Heads	May 13, 2020	Language ModelingLanguage Modelling	—Unverified	0
DiscreTalk: Text-to-Speech as a Machine Translation Problem	May 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploiting Syntactic Structure for Better Language Modeling: A Syntactic Distance Approach	May 12, 2020	Language ModelingLanguage Modelling	CodeCode Available	0

Show:10 25 50

← PrevPage 292 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified