Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15051–15100 of 17610 papers

Title	Date	Tasks	Status	Hype
Multi-task Learning for Natural Language Generation in Task-Oriented Dialogue	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Justifying Recommendations using Distantly-Labeled Reviews and Fine-Grained Aspects	Nov 1, 2019	Decision MakingLanguage Modeling	—Unverified	0
Pre-Training BERT on Domain Resources for Short Answer Grading	Nov 1, 2019	automatic short answer gradingLanguage Modeling	—Unverified	0
TILM: Neural Language Models with Evolving Topical Influence	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Synthetic Propaganda Embeddings To Train A Linear Projection	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Selecting, Planning, and Rewriting: A Modular Approach for Data-to-Document Generation and Translation	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Jeff Da at COIN - Shared Task: BIG MOOD: Relating Transformers to Explicit Commonsense Knowledge	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Phonetic Normalization for Machine Translation of User Generated Content	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Unsupervised Aspect-Based Multi-Document Abstractive Summarization	Nov 1, 2019	Abstractive Text SummarizationClustering	—Unverified	0
A Recurrent BERT-based Model for Question Generation	Nov 1, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
English-Myanmar Supervised and Unsupervised NMT: NICT's Machine Translation Systems at WAT-2019	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm	Nov 1, 2019	Chinese Spell CheckingDecoder	CodeCode Available	0
Enhancing BERT for Lexical Normalization	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Character-Based Models for Adversarial Phone Extraction: Preventing Human Sex Trafficking	Nov 1, 2019	Data AugmentationLanguage Modeling	—Unverified	0
Improving Multi-label Emotion Classification by Integrating both General and Domain-specific Knowledge	Nov 1, 2019	Emotion ClassificationGeneral Classification	—Unverified	0
Generalizing Question Answering System with Pre-trained Language Model Fine-tuning	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
GEM: Generative Enhanced Model for adversarial attacks	Nov 1, 2019	ArticlesLanguage Modeling	—Unverified	0
Coreference Resolution in Full Text Articles with BERT and Syntax-based Mention Filtering	Nov 1, 2019	Articlescoreference-resolution	—Unverified	0
Fine-Grained Propaganda Detection with Fine-Tuned BERT	Nov 1, 2019	ArticlesClassification	—Unverified	0
Contextual Text Denoising with Masked Language Model	Nov 1, 2019	DenoisingLanguage Modeling	—Unverified	0
Divisive Language and Propaganda Detection using Multi-head Attention Transformers with Deep Learning BERT-based Language Models for Binary Classification	Nov 1, 2019	ArticlesBinary Classification	—Unverified	0
Context-Aware Neural Machine Translation Decoding	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified	0
Hello, It's GPT-2 - How Can I Help You? Towards the Use of Pretrained Language Models for Task-Oriented Dialogue Systems	Nov 1, 2019	Decision MakingLanguage Modeling	—Unverified	0
A neural document language modeling framework for spoken document retrieval	Oct 31, 2019	Information RetrievalLanguage Modeling	—Unverified	0
Multi-Stage Document Ranking with BERT	Oct 31, 2019	Document RankingLanguage Modeling	CodeCode Available	1
Positional Attention-based Frame Identification with BERT: A Deep Learning Approach to Target Disambiguation and Semantic Frame Selection	Oct 31, 2019	Language ModelingLanguage Modelling	—Unverified	0
Masked Language Model Scoring	Oct 31, 2019	AttributeDomain Adaptation	CodeCode Available	1
Learning to Customize Model Structures for Few-shot Dialogue Generation Tasks	Oct 31, 2019	Dialogue GenerationDiversity	CodeCode Available	0
Learning Deterministic Weighted Automata with Queries and Counterexamples	Oct 30, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
Lightweight and Efficient End-to-End Speech Recognition Using Low-Rank Transformer	Oct 30, 2019	Language ModelingLanguage Modelling	—Unverified	0
Contextual Text Denoising with Masked Language Models	Oct 30, 2019	DenoisingLanguage Modeling	—Unverified	0
Fill in the Blanks: Imputing Missing Sentences for Larger-Context Neural Machine Translation	Oct 30, 2019	Document Level Machine TranslationLanguage Modeling	—Unverified	0
Inducing brain-relevant bias in natural language processing models	Oct 29, 2019	Language Modelling	CodeCode Available	0
Learning Rich Image Region Representation for Visual Question Answering	Oct 29, 2019	Language ModelingLanguage Modelling	—Unverified	0
Semi-Supervised Natural Language Approach for Fine-Grained Classification of Medical Reports	Oct 29, 2019	General ClassificationLanguage Modeling	—Unverified	0
Extreme Classification in Log Memory using Count-Min Sketch: A Case Study of Amazon Search with 50M Products	Oct 28, 2019	ClassificationGeneral Classification	CodeCode Available	0
A BERT-Based Transfer Learning Approach for Hate Speech Detection in Online Social Media	Oct 28, 2019	Hate Speech DetectionLanguage Modelling	CodeCode Available	0
Exploring Kernel Functions in the Softmax Layer for Contextual Word Classification	Oct 28, 2019	General ClassificationLanguage Modeling	—Unverified	0
Sketch-Fill-A-R: A Persona-Grounded Chit-Chat Generation Framework	Oct 28, 2019	Language ModelingLanguage Modelling	—Unverified	0
Thieves on Sesame Street! Model Extraction of BERT-based APIs	Oct 27, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
HUBERT Untangles BERT to Improve Transfer across NLP Tasks	Oct 25, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
FineText: Text Classification via Attention-based Language Model Fine-tuning	Oct 25, 2019	BenchmarkingClassification	—Unverified	0
SpeechBERT: An Audio-and-text Jointly Learned Language Model for End-to-end Spoken Question Answering	Oct 25, 2019	Language ModelingLanguage Modelling	—Unverified	0
On the Cross-lingual Transferability of Monolingual Representations	Oct 25, 2019	Cross-Lingual Question AnsweringLanguage Modeling	CodeCode Available	0
L2RS: A Learning-to-Rescore Mechanism for Automatic Speech Recognition	Oct 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Empirical Study of Efficient ASR Rescoring with Transformers	Oct 24, 2019	Knowledge DistillationLanguage Modeling	—Unverified	0
Low-Resource Sequence Labeling via Unsupervised Multilingual Contextualized Representations	Oct 24, 2019	Language ModelingLanguage Modelling	CodeCode Available	0
Healthcare NER Models Using Language Model Pretraining	Oct 23, 2019	Language ModelingLanguage Modelling	—Unverified	0
Efficient Dynamic WFST Decoding for Personalized Language Models	Oct 23, 2019	DecoderLanguage Modeling	—Unverified	0
Correction of Automatic Speech Recognition with Transformer Sequence-to-sequence Model	Oct 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 302 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified