Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13651–13700 of 17610 papers

Title	Date	Tasks	Status
MetaXT: Meta Cross-Task Transfer between Disparate Label Spaces	Sep 9, 2021	Language ModelingLanguage Modelling	—Unverified
Non-autoregressive End-to-end Speech Translation with Parallel Autoregressive Rescoring	Sep 9, 2021	CPUDecoder	—Unverified
Sustainable Modular Debiasing of Language Models	Sep 8, 2021	FairnessLanguage Modeling	—Unverified
Memory and Knowledge Augmented Language Models for Inferring Salience in Long-Form Stories	Sep 8, 2021	FormLanguage Modeling	CodeCode Available
NSP-BERT: A Prompt-based Few-Shot Learner Through an Original Pre-training Task--Next Sentence Prediction	Sep 8, 2021	Entity LinkingLanguage Modeling	—Unverified
RefineCap: Concept-Aware Refinement for Image Captioning	Sep 8, 2021	DecoderDescriptive	—Unverified
Text-Free Prosody-Aware Generative Spoken Language Modeling	Sep 7, 2021	Language ModelingLanguage Modelling	—Unverified
Sequential Attention Module for Natural Language Processing	Sep 7, 2021	Language ModellingSentiment Analysis	—Unverified
Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings	Sep 7, 2021	AllLanguage Modeling	—Unverified
Generate & Rank: A Multi-task Framework for Math Word Problems	Sep 7, 2021	Language ModelingLanguage Modelling	—Unverified
Infusing Future Information into Monotonic Attention Through Language Models	Sep 7, 2021	Language ModelingLanguage Modelling	—Unverified
GPT-3 Models are Poor Few-Shot Learners in the Biomedical Domain	Sep 6, 2021	Few-Shot LearningLanguage Modelling	CodeCode Available
Enhancing Natural Language Representation with Large-Scale Out-of-Domain Commonsense	Sep 6, 2021	Entity EmbeddingsKnowledge Graphs	CodeCode Available
You should evaluate your language model on marginal likelihood over tokenisations	Sep 6, 2021	Language ModelingLanguage Modelling	—Unverified
Teaching Autoregressive Language Models Complex Tasks By Demonstration	Sep 5, 2021	Language ModelingLanguage Modelling	CodeCode Available
No Need to Know Everything! Efficiently Augmenting Language Models With External Knowledge	Sep 3, 2021	Language ModelingLanguage Modelling	—Unverified
Language Modeling, Lexical Translation, Reordering: The Training Process of NMT through the Lens of Classical SMT	Sep 3, 2021	Language ModelingLanguage Modelling	—Unverified
Skim-Attention: Learning to Focus via Document Layout	Sep 2, 2021	document understandingLanguage Modeling	CodeCode Available
Multimodal Conditionality for Natural Language Generation	Sep 2, 2021	DescriptiveLanguage Modeling	—Unverified
LegaLMFiT: Efficient Short Legal Text Classification with LSTM Language Model Pre-Training	Sep 2, 2021	Language ModelingLanguage Modelling	—Unverified
Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation	Sep 2, 2021	Language ModelingLanguage Modelling	—Unverified
An Empirical Exploration in Quality Filtering of Text Data	Sep 2, 2021	Language ModelingLanguage Modelling	—Unverified
ConQX: Semantic Expansion of Spoken Queries for Intent Detection based on Conditioned Text Generation	Sep 2, 2021	Few-Shot LearningIntent Detection	—Unverified
BPoMP: The Benchmark of Poetic Minimal Pairs – Limericks, Rhyme, and Narrative Coherence	Sep 1, 2021	Language Model EvaluationLanguage Modelling	—Unverified
Behavior of Modern Pre-trained Language Models Using the Example of Probing Tasks	Sep 1, 2021	Language ModellingText Generation	—Unverified
Developing a Clinical Language Model for Swedish: Continued Pretraining of Generic BERT with In-Domain Data	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
IRCologne at GermEval 2021: Toxicity Classification	Sep 1, 2021	ClassificationLanguage Modeling	—Unverified
Domain-Specific Japanese ELECTRA Model Using a Small Corpus	Sep 1, 2021	ArticlesComputational Efficiency	—Unverified
Does Knowledge Help General NLU? An Empirical Study	Sep 1, 2021	Common Sense ReasoningLanguage Modeling	—Unverified
Improving Character-Aware Neural Language Model by Warming up Character Encoder under Skip-gram Architecture	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Unsupervised Text Style Transfer with Content Embeddings	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Watching a Language Model Learning Chess	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Towards a Language Model for Temporal Commonsense Reasoning	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
On Reducing Repetition in Abstractive Summarization	Sep 1, 2021	Abstractive Text SummarizationInformativeness	—Unverified
Low-Resource ASR with an Augmented Language Model	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Neural Borrowing Detection with Monolingual Lexical Models	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Split-and-Rephrase in a Cross-Lingual Manner: A Complete Pipeline	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
Masked Adversarial Generation for Neural Machine Translation	Sep 1, 2021	Language ModelingLanguage Modelling	—Unverified
LightNER: A Lightweight Tuning Paradigm for Low-resource NER via Pluggable Prompting	Aug 31, 2021	Few-Shot LearningLanguage Modelling	CodeCode Available
Effectiveness of Deep Networks in NLP using BiDAF as an example architecture	Aug 31, 2021	Language ModelingLanguage Modelling	—Unverified
How Does Adversarial Fine-Tuning Benefit BERT?	Aug 31, 2021	Continual LearningDependency Parsing	—Unverified
On the Multilingual Capabilities of Very Large-Scale English Language Models	Aug 30, 2021	Extractive Question-AnsweringFew-Shot Learning	CodeCode Available
The effects of data size on Automated Essay Scoring engines	Aug 30, 2021	Automated Essay ScoringLanguage Modeling	—Unverified
Representation Memorization for Fast Learning New Knowledge without Forgetting	Aug 28, 2021	image-classificationImage Classification	—Unverified
Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems	Aug 28, 2021	dialog state trackingFew-Shot Learning	CodeCode Available
Exploring Retraining-Free Speech Recognition for Intra-sentential Code-Switching	Aug 27, 2021	Language ModelingLanguage Modelling	—Unverified
Injecting Text in Self-Supervised Speech Pretraining	Aug 27, 2021	Contrastive LearningLanguage Modelling	—Unverified
Exploring the Capacity of a Large-scale Masked Language Model to Recognize Grammatical Errors	Aug 27, 2021	Grammatical Error DetectionLanguage Modeling	—Unverified
Improving callsign recognition with air-surveillance data in air-traffic communication	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Position-Invariant Truecasing with a Word-and-Character Hierarchical Recurrent Neural Network	Aug 26, 2021	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 274 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified