Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3601–3650 of 17610 papers

Title	Date	Tasks	Status	Hype
AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your Hebrew NLP Application With	Apr 8, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Revisiting Simple Neural Probabilistic Language Models	Apr 8, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Librispeech Transducer Model with Internal Language Model Prior Correction	Apr 7, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
MMBERT: Multimodal BERT Pretraining for Improved Medical VQA	Apr 3, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
NewsMTSC: A Dataset for (Multi-)Target-dependent Sentiment Classification in Political News Articles	Apr 1, 2021	ArticlesDecision Making	CodeCode Available	1
[Re] Rigging the Lottery: Making All Tickets Winners	Mar 29, 2021	AllGPU	CodeCode Available	1
Finetuning Pretrained Transformers into RNNs	Mar 24, 2021	Language ModellingMachine Translation	CodeCode Available	1
Controllable Generation from Pre-trained Language Models via Inverse Prompting	Mar 19, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Structure Inducing Pre-Training	Mar 18, 2021	DescriptiveInductive Bias	CodeCode Available	1
Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation	Mar 18, 2021	Bilingual Lexicon InductionLanguage Modeling	CodeCode Available	1
Refining Language Models with Compositional Explanations	Mar 18, 2021	FairnessLanguage Modelling	CodeCode Available	1
Inductive Relation Prediction by BERT	Mar 12, 2021	Few-Shot LearningInductive Learning	CodeCode Available	1
Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition	Mar 11, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
MERMAID: Metaphor Generation with Symbolism and Discriminative Decoding	Mar 11, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models	Mar 11, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
OAG-BERT: Towards A Unified Backbone Language Model For Academic Knowledge Services	Mar 3, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP	Feb 28, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Chess as a Testbed for Language Model State Tracking	Feb 26, 2021	Game of ChessLanguage Modeling	CodeCode Available	1
ZJUKLAB at SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning	Feb 25, 2021	Language Model EvaluationLanguage Modeling	CodeCode Available	1
RoBERTa-wwm-ext Fine-Tuning for Chinese Text Classification	Feb 24, 2021	ClassificationGeneral Classification	CodeCode Available	1
PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains	Feb 24, 2021	Domain AdaptationLanguage Modelling	CodeCode Available	1
Linear Transformers Are Secretly Fast Weight Programmers	Feb 22, 2021	Language ModellingMachine Translation	CodeCode Available	1
VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning	Feb 20, 2021	DecoderImage Captioning	CodeCode Available	1
Less is More: Pre-train a Strong Text Encoder for Dense Retrieval Using a Weak Decoder	Feb 18, 2021	DecoderLanguage Modeling	CodeCode Available	1
End-to-end lyrics Recognition with Voice to Singing Style Transfer	Feb 17, 2021	Data AugmentationLanguage Modeling	CodeCode Available	1
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training	Feb 16, 2021	Image ClassificationLanguage Modeling	CodeCode Available	1
COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining	Feb 16, 2021	Contrastive LearningGPU	CodeCode Available	1
DOBF: A Deobfuscation Pre-Training Objective for Programming Languages	Feb 15, 2021	Code SearchCode Translation	CodeCode Available	1
End-to-end Audio-visual Speech Recognition with Conformers	Feb 12, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Proof Artifact Co-training for Theorem Proving with Language Models	Feb 11, 2021	Automated Theorem ProvingImitation Learning	CodeCode Available	1
Unsupervised Extractive Summarization using Pointwise Mutual Information	Feb 11, 2021	ArticlesExtractive Summarization	CodeCode Available	1
Argmax Flows and Multinomial Diffusion: Learning Categorical Distributions	Feb 10, 2021	DenoisingImage Segmentation	CodeCode Available	1
Bias Out-of-the-Box: An Empirical Analysis of Intersectional Occupational Biases in Popular Generative Language Models	Feb 8, 2021	Language ModellingSentence	CodeCode Available	1
Unifying Vision-and-Language Tasks via Text Generation	Feb 4, 2021	Conditional Text GenerationDecoder	CodeCode Available	1
Phoneme-BERT: Joint Language Modelling of Phoneme Sequence and ASR Transcript	Feb 1, 2021	intent-classificationIntent Classification	CodeCode Available	1
Generative Spoken Language Modeling from Raw Audio	Feb 1, 2021	DecoderLanguage Modeling	CodeCode Available	1
LESA: Linguistic Encapsulation and Semantic Amalgamation Based Generalised Claim Detection from Online Content	Jan 28, 2021	Argument MiningLanguage Modeling	CodeCode Available	1
BENDR: using transformers and a contrastive self-supervised learning task to learn from massive amounts of EEG data	Jan 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
PolyLM: Learning about Polysemy through Language Modeling	Jan 25, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
CPT: Efficient Deep Neural Network Training via Cyclic Precision	Jan 25, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
EGFI: Drug-Drug Interaction Extraction and Generation with Fusion of Enriched Entity and Sentence Information	Jan 25, 2021	ClassificationDrug–drug Interaction Extraction	CodeCode Available	1
Cross-lingual Visual Pre-training for Multimodal Machine Translation	Jan 25, 2021	Language ModellingMachine Translation	CodeCode Available	1
WangchanBERTa: Pretraining transformer-based Thai Language Models	Jan 24, 2021	ArticlesLanguage Modelling	CodeCode Available	1
PalmTree: Learning an Assembly Language Model for Instruction Embedding	Jan 21, 2021	Boundary DetectionCode Search	CodeCode Available	1
Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach	Jan 19, 2021	Deep Reinforcement LearningDialogue Generation	CodeCode Available	1
Persistent Anti-Muslim Bias in Large Language Models	Jan 14, 2021	Adversarial TextLanguage Modeling	CodeCode Available	1
Implicit Unlikelihood Training: Improving Neural Text Generation with Reinforcement Learning	Jan 11, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing	Jan 9, 2021	Dependency ParsingLanguage Modeling	CodeCode Available	1
Multitask Learning for Emotion and Personality Detection	Jan 7, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing	Jan 5, 2021	Dependency ParsingLanguage Modeling	CodeCode Available	1

Show:10 25 50

← PrevPage 73 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified