Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11851–11900 of 17610 papers

Title	Date	Tasks	Status	Hype
Explain and Conquer: Personalised Text-based Reviews to Achieve Transparency	May 3, 2022	Collaborative FilteringLanguage Modelling	—Unverified	0
Embedding Hallucination for Few-Shot Language Fine-tuning	May 3, 2022	Data AugmentationHallucination	CodeCode Available	0
Contrastive Learning for Prompt-Based Few-Shot Language Learners	May 3, 2022	Contrastive LearningIn-Context Learning	CodeCode Available	1
SparCAssist: A Model Risk Assessment Assistant Based on Sparse Generated Counterfactuals	May 3, 2022	counterfactualLanguage Modeling	—Unverified	0
OPT: Open Pre-trained Transformer Language Models	May 2, 2022	DecoderHate Speech Detection	CodeCode Available	5
Entity-aware Transformers for Entity Search	May 2, 2022	Entity EmbeddingsEntity Retrieval	CodeCode Available	1
Adversarial Soft Prompt Tuning for Cross-Domain Sentiment Analysis	May 1, 2022	Domain AdaptationLanguage Modeling	—Unverified	0
Cue-bot: A Conversational Agent for Assistive Technology	May 1, 2022	Language Modelling	—Unverified	0
Fire Burns, Sword Cuts: Commonsense Inductive Bias for Exploration in Text-based Games	May 1, 2022	Deep Reinforcement LearningEfficient Exploration	CodeCode Available	0
Imputing Out-of-Vocabulary Embeddings with LOVE Makes LanguageModels Robust with Little Cost	May 1, 2022	Contrastive LearningLanguage Modeling	CodeCode Available	1
-former: Infinite Memory Transformer	May 1, 2022	Dialogue GenerationLanguage Modeling	CodeCode Available	1
Enhancing Chinese Pre-trained Language Model via Heterogeneous Linguistics Graph	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
An Embarrassingly Simple Method to Mitigate Undesirable Properties of Pretrained Language Model Tokenizers	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Exploiting Language Model Prompts Using Similarity Measures: A Case Study on the Word-in-Context Task	May 1, 2022	Few-Shot LearningIn-Context Learning	—Unverified	0
Deep Neural Representations for Multiword Expressions Detection	May 1, 2022	Language ModellingNatural Language Inference	CodeCode Available	0
Unsupervised Dependency Graph Network	May 1, 2022	Dependency ParsingLanguage Modeling	CodeCode Available	1
Phone-ing it in: Towards Flexible Multi-Modal Language Model Training by Phonetic Representations of Data	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Phrase-aware Unsupervised Constituency Parsing	May 1, 2022	Constituency ParsingLanguage Modeling	—Unverified	0
P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
KIQA: Knowledge-Infused Question Answering Model for Financial Table-Text Data	May 1, 2022	Entity LinkingEntity Retrieval	—Unverified	0
Language Models as Context-sensitive Word Search Engines	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
The Best of both Worlds: Dual Channel Language modeling for Hope Speech Detection in low-resourced Kannada	May 1, 2022	Cross-Lingual TransferHope Speech Detection	—Unverified	0
OPI@LT-EDI-ACL2022: Detecting Signs of Depression from Social Media Text using RoBERTa Pre-trained Language Models	May 1, 2022	Depression DetectionLanguage Modeling	CodeCode Available	1
SSN_ARMM@ LT-EDI -ACL2022: Hope Speech Detection for Equality, Diversity, and Inclusion Using ALBERT model	May 1, 2022	DiversityHope Speech Detection	—Unverified	0
Leveraging Similar Users for Personalized Language Modeling with Limited Data	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
MR-P: A Parallel Decoding Algorithm for Iterative Refinement Non-Autoregressive Translation	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Tagging Without Rewriting: A Probabilistic Model for Unpaired Sentiment and Style Transfer	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Query Generation with External Knowledge for Dense Retrieval	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
“Is Whole Word Masking Always Better for Chinese BERT?”: Probing on Chinese Grammatical Error Correction	May 1, 2022	Grammatical Error CorrectionLanguage Modeling	—Unverified	0
MTL-SLT: Multi-Task Learning for Spoken Language Tasks	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Thai Nested Named Entity Recognition Corpus	May 1, 2022	ArticlesLanguage Modeling	CodeCode Available	1
The Xiaomi Text-to-Text Simultaneous Speech Translation System for IWSLT 2022	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Joint Entity and Relation Extraction Based on Table Labeling Using Convolutional Neural Networks	May 1, 2022	Joint Entity and Relation ExtractionLanguage Modeling	CodeCode Available	1
Multi-Granularity Structural Knowledge Distillation for Language Model Compression	May 1, 2022	Knowledge DistillationLanguage Modeling	CodeCode Available	0
Stylistic Response Generation by Controlling Personality Traits and Intent	May 1, 2022	Language ModellingResponse Generation	CodeCode Available	0
Mix and Match: Learning-free Controllable Text Generationusing Energy Language Models	May 1, 2022	AttributeLanguage Modeling	CodeCode Available	1
Syntax-guided Contrastive Learning for Pre-trained Language Model	May 1, 2022	Contrastive LearningGrammatical Error Detection	—Unverified	0
ANNA”:" Enhanced Language Representation for Question Answering	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Improving Controllable Text Generation with Position-Aware Weighted Decoding	May 1, 2022	AttributeLanguage Modeling	—Unverified	0
DS-TOD: Efficient Domain Specialization for Task-Oriented Dialog	May 1, 2022	dialog state trackingLanguage Modeling	CodeCode Available	0
Challenges in including extra-linguistic context in pre-trained language models	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Continuing Pre-trained Model with Multiple Training Strategies for Emotional Classification	May 1, 2022	AttributeClassification	—Unverified	0
Cross-Modal Cloze Task: A New Task to Brain-to-Word Decoding	May 1, 2022	Binary ClassificationDecoder	CodeCode Available	0
Composing Structure-Aware Batches for Pairwise Sentence Classification	May 1, 2022	ClassificationLanguage Modeling	CodeCode Available	0
Design principles of an open-source language modeling microservice package for AAC text-entry applications	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
EICO: Improving Few-Shot Text Classification via Explicit and Implicit Consistency Regularization	May 1, 2022	Few-Shot LearningFew-Shot Text Classification	—Unverified	0
Cross-Lingual UMLS Named Entity Linking using UMLS Dictionary Fine-Tuning	May 1, 2022	Entity LinkingLanguage Modeling	CodeCode Available	0
Extracting Person Names from User Generated Text: Named-Entity Recognition for Combating Human Trafficking	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
CueBot: Cue-Controlled Response Generation for Assistive Interaction Usages	May 1, 2022	Language ModellingResponse Generation	—Unverified	0
Improving Multiple Documents Grounded Goal-Oriented Dialog Systems via Diverse Knowledge Enhanced Pretrained Language Model	May 1, 2022	Goal-Oriented DialogLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 238 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified