Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11351–11400 of 17610 papers

Title	Date	Tasks	Status	Hype
Multi-Figurative Language Generation	Sep 5, 2022	FormLanguage Modelling	CodeCode Available	1
Distilling the Knowledge of BERT for CTC-based ASR	Sep 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Do Large Language Models know what humans know?	Sep 4, 2022	AttributeLanguage Modeling	CodeCode Available	0
Selective Text Augmentation with Word Roles for Low-Resource Text Classification	Sep 4, 2022	ClassificationData Augmentation	CodeCode Available	0
Semantically Meaningful Metrics for Norwegian ASR Systems	Sep 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Neural Approaches to Multilingual Information Retrieval	Sep 3, 2022	Document TranslationInformation Retrieval	—Unverified	0
TransPolymer: a Transformer-based language model for polymer property predictions	Sep 3, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Vision-Language Adaptive Mutual Decoder for OOV-STR	Sep 2, 2022	DecoderLanguage Modeling	—Unverified	0
FOLIO: Natural Language Reasoning with First-Order Logic	Sep 2, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Prefix Embeddings for In-context Machine Translation	Sep 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
UDapter: Typology-based Language Adapters for Multilingual Dependency Parsing and Sequence Labeling	Sep 1, 2022	Dependency ParsingLanguage Modeling	—Unverified	0
Enhancing Semantic Understanding with Self-supervised Methods for Abstractive Dialogue Summarization	Sep 1, 2022	Abstractive Dialogue SummarizationAbstractive Text Summarization	—Unverified	0
Distilling Multi-Scale Knowledge for Event Temporal Relation Extraction	Sep 1, 2022	Contrastive LearningLanguage Modelling	—Unverified	0
LexMAE: Lexicon-Bottlenecked Pretraining for Large-Scale Retrieval	Aug 31, 2022	CPUDecoder	CodeCode Available	1
The Fellowship of the Authors: Disambiguating Names from Social Network Context	Aug 31, 2022	Articlescoreference-resolution	—Unverified	0
Continuous QA Learning with Structured Prompts	Aug 31, 2022	Language ModelingLanguage Modelling	—Unverified	0
Efficient Sparsely Activated Transformers	Aug 31, 2022	Language ModelingLanguage Modelling	—Unverified	0
To Adapt or to Fine-tune: A Case Study on Abstractive Summarization	Aug 30, 2022	Abstractive Text SummarizationLanguage Modeling	CodeCode Available	0
Efficient and Interpretable Neural Models for Entity Tracking	Aug 30, 2022	Coreference ResolutionLanguage Modeling	—Unverified	0
Personal Attribute Prediction from Conversations	Aug 29, 2022	AttributeLanguage Modeling	CodeCode Available	0
LogicRank: Logic Induced Reranking for Generative Text-to-Image Systems	Aug 29, 2022	Image GenerationLanguage Modeling	—Unverified	0
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers	Aug 28, 2022	ClusteringDiversity	—Unverified	0
Bayesian Neural Network Language Modeling for Speech Recognition	Aug 28, 2022	Data AugmentationLanguage Modeling	CodeCode Available	0
On Unsupervised Training of Link Grammar Based Language Models	Aug 27, 2022	Language ModelingLanguage Modelling	—Unverified	0
Extracting Biomedical Factual Knowledge Using Pretrained Language Model and Electronic Health Record Context	Aug 26, 2022	Language ModelingLanguage Modelling	—Unverified	0
Training a T5 Using Lab-sized Resources	Aug 25, 2022	Language ModelingLanguage Modelling	—Unverified	0
DPTDR: Deep Prompt Tuning for Dense Passage Retrieval	Aug 24, 2022	Language ModellingNatural Questions	CodeCode Available	0
Induced Natural Language Rationales and Interleaved Markup Tokens Enable Extrapolation in Large Language Models	Aug 24, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Learning from Unlabeled 3D Environments for Vision-and-Language Navigation	Aug 24, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
PEER: A Collaborative Language Model	Aug 24, 2022	DiversityLanguage Modeling	—Unverified	0
Interpreting Song Lyrics with an Audio-Informed Pre-trained Language Model	Aug 24, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Repair Is Nearly Generation: Multilingual Program Repair with LLMs	Aug 24, 2022	Language ModellingLarge Language Model	—Unverified	0
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned	Aug 23, 2022	Language ModellingRed Teaming	CodeCode Available	3
Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adaptation	Aug 23, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Prompting as Probing: Using Language Models for Knowledge Base Construction	Aug 23, 2022	Knowledge Base ConstructionLanguage Modeling	CodeCode Available	1
Learning Better Masking for Better Language Model Pre-training	Aug 23, 2022	DenoisingLanguage Modeling	CodeCode Available	0
Multimodal Crop Type Classification Fusing Multi-Spectral Satellite Time Series with Farmers Crop Rotations and Local Crop Distribution	Aug 23, 2022	Crop Type MappingData Augmentation	—Unverified	0
CLOWER: A Pre-trained Language Model with Contrastive Learning over Word and Character Representations	Aug 23, 2022	Contrastive LearningLanguage Modeling	—Unverified	0
Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense Reasoning	Aug 23, 2022	Language ModelingLanguage Modelling	—Unverified	0
GenTUS: Simulating User Behaviour and Language in Task-oriented Dialogues with Generative Transformers	Aug 23, 2022	DecoderLanguage Modelling	—Unverified	0
Dialogue Term Extraction using Transfer Learning and Topological Data Analysis	Aug 22, 2022	Goal-Oriented Dialogue SystemsLanguage Modelling	—Unverified	0
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks	Aug 22, 2022	AllCross-Modal Retrieval	CodeCode Available	0
GRETEL: Graph Contrastive Topic Enhanced Language Model for Long Document Extractive Summarization	Aug 21, 2022	Contrastive LearningExtractive Summarization	—Unverified	0
A Syntax Aware BERT for Identifying Well-Formed Queries in a Curriculum Framework	Aug 21, 2022	Language ModelingLanguage Modelling	—Unverified	0
I Know What You Do Not Know: Knowledge Graph Embedding via Co-distillation Learning	Aug 21, 2022	Graph EmbeddingKnowledge Graph Embedding	CodeCode Available	1
Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization	Aug 21, 2022	Abstractive Text SummarizationDecoder	CodeCode Available	4
VLMAE: Vision-Language Masked Autoencoder	Aug 19, 2022	Image-text RetrievalLanguage Modeling	—Unverified	0
Integrating Diverse Knowledge Sources for Online One-shot Learning of Novel Tasks	Aug 19, 2022	Language ModelingLanguage Modelling	—Unverified	0
Graph-Augmented Cyclic Learning Framework for Similarity Estimation of Medical Clinical Notes	Aug 19, 2022	DiagnosticLanguage Modeling	—Unverified	0
VAuLT: Augmenting the Vision-and-Language Transformer for Sentiment Classification on Social Media	Aug 18, 2022	DescriptiveDiversity	CodeCode Available	1

Show:10 25 50

← PrevPage 228 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified