Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 17610 papers

Title	Date	Tasks	Status	Hype
Parsel: Algorithmic Reasoning with Language Models by Composing Decompositions	Dec 20, 2022	Automated Theorem ProvingCode Generation	CodeCode Available	2
ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding	Dec 10, 2022	3D Architecture3D Classification	CodeCode Available	2
Discovering Latent Knowledge in Language Models Without Supervision	Dec 7, 2022	Imitation LearningLanguage Modelling	CodeCode Available	2
DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models	Nov 28, 2022	DenoisingLanguage Modeling	CodeCode Available	2
CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels	Nov 25, 2022	image-classificationImage Classification	CodeCode Available	2
Ignore Previous Prompt: Attack Techniques For Language Models	Nov 17, 2022	Adversarial AttackAdversarial Text	CodeCode Available	2
LERT: A Linguistically-motivated Pre-trained Language Model	Nov 10, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Text-Only Training for Image Captioning using Noise-Injected CLIP	Nov 1, 2022	DecoderImage Captioning	CodeCode Available	2
When Language Model Meets Private Library	Oct 31, 2022	Code GenerationLanguage Modeling	CodeCode Available	2
Retrieval Oriented Masking Pre-training Language Model for Dense Passage Retrieval	Oct 27, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Contrastive Decoding: Open-ended Text Generation as Optimization	Oct 27, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Contrastive Search Is What You Need For Neural Text Generation	Oct 25, 2022	Contrastive LearningLanguage Modeling	CodeCode Available	2
TabLLM: Few-shot Classification of Tabular Data with Large Language Models	Oct 19, 2022	ClassificationDeep Learning	CodeCode Available	2
Deep Bidirectional Language-Knowledge Graph Pretraining	Oct 17, 2022	Common Sense ReasoningKnowledge Graphs	CodeCode Available	2
Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them	Oct 17, 2022	Language Modelling	CodeCode Available	2
Re3: Generating Longer Stories With Recursive Reprompting and Revision	Oct 13, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Mass-Editing Memory in a Transformer	Oct 13, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Continual Training of Language Models for Few-Shot Learning	Oct 11, 2022	Continual LearningContinual Pretraining	CodeCode Available	2
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding	Oct 7, 2022	Chart Question AnsweringDiversity	CodeCode Available	2
Named Entity Recognition in Twitter: A Dataset and Analysis on Short-Term Temporal Shifts	Oct 7, 2022	ArticlesLanguage Modeling	CodeCode Available	2
VIMA: General Robot Manipulation with Multimodal Prompts	Oct 6, 2022	Imitation LearningLanguage Modelling	CodeCode Available	2
Binding Language Models in Symbolic Languages	Oct 6, 2022	Language ModellingSemantic Parsing	CodeCode Available	2
LambdaKG: A Library for Pre-trained Language Model-Based Knowledge Graph Embeddings	Oct 1, 2022	Graph Representation LearningKnowledge Graph Completion	CodeCode Available	2
Generate rather than Retrieve: Large Language Models are Strong Context Generators	Sep 21, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Mega: Moving Average Equipped Gated Attention	Sep 21, 2022	Image ClassificationInductive Bias	CodeCode Available	2
T-NER: An All-Round Python Library for Transformer-based Named Entity Recognition	Sep 9, 2022	AllDomain Generalization	CodeCode Available	2
Atlas: Few-shot Learning with Retrieval Augmented Language Models	Aug 5, 2022	Fact CheckingFew-Shot Learning	CodeCode Available	2
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model	Aug 2, 2022	Causal Language ModelingCommon Sense Reasoning	CodeCode Available	2
Language Model Cascades	Jul 21, 2022	Few-Shot LearningLanguage Modeling	CodeCode Available	2
Language Modelling with Pixels	Jul 14, 2022	Language ModellingNamed Entity Recognition	CodeCode Available	2
Scene Text Recognition with Permuted Autoregressive Sequence Models	Jul 14, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Recurrent Memory Transformer	Jul 14, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action	Jul 10, 2022	Instruction FollowingLanguage Modeling	CodeCode Available	2
Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022	Jul 4, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Egocentric Video-Language Pretraining @ Ego4D Challenge 2022	Jul 4, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Accurate RNA 3D structure prediction using a language model-based deep learning approach	Jul 4, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition	Jul 4, 2022	Action ClassificationAction Recognition	CodeCode Available	2
BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing	Jun 30, 2022	DiversityLanguage Model Evaluation	CodeCode Available	2
Solving Quantitative Reasoning Problems with Language Models	Jun 29, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2
TEVR: Improving Speech Recognition by Token Entropy Variance Reduction	Jun 25, 2022	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available	2
Mining Error Templates for Grammatical Error Correction	Jun 23, 2022	Grammatical Error CorrectionLanguage Modeling	CodeCode Available	2
GODEL: Large-Scale Pre-Training for Goal-Directed Dialog	Jun 22, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Revealing Single Frame Bias for Video-and-Language Learning	Jun 7, 2022	Action RecognitionFine-grained Action Recognition	CodeCode Available	2
Offline RL for Natural Language Generation with Implicit Language Q Learning	Jun 5, 2022	Language ModellingOffline RL	CodeCode Available	2
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder	May 24, 2022	DecoderInformation Retrieval	CodeCode Available	2
BBTv2: Towards a Gradient-Free Future with Large Language Models	May 23, 2022	Few-Shot LearningLanguage Modelling	CodeCode Available	2
A Generalist Agent	May 12, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Symphony Generation with Permutation Invariant Language Model	May 10, 2022	Audio GenerationDecoder	CodeCode Available	2
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers	Apr 28, 2022	Image GenerationLanguage Modeling	CodeCode Available	2

Show:10 25 50

← PrevPage 25 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified