Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12051–12100 of 17610 papers

Title	Date	Tasks	Status	Hype
Improving Speech Recognition for Indic Languages using Language Model	Mar 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Auto-MLM: Improved Contrastive Learning for Self-supervised Multi-lingual Knowledge Retrieval	Mar 30, 2022	Contrastive LearningLanguage Modeling	—Unverified	0
Generative Spoken Dialogue Language Modeling	Mar 30, 2022	Language ModelingLanguage Modelling	—Unverified	0
Incorporating Dynamic Semantics into Pre-Trained Language Model for Aspect-based Sentiment Analysis	Mar 30, 2022	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified	0
PromptDet: Towards Open-vocabulary Detection using Uncurated Images	Mar 30, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text Normalization	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance	Mar 29, 2022	Language ModelingLanguage Modelling	—Unverified	0
WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models	Mar 29, 2022	Few-Shot LearningLanguage Modeling	CodeCode Available	1
WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit	Mar 29, 2022	DecoderLanguage Modelling	CodeCode Available	5
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6
Cross-Media Scientific Research Achievements Retrieval Based on Deep Language Model	Mar 29, 2022	Cross-Modal RetrievalLanguage Modeling	—Unverified	0
LinkBERT: Pretraining Language Models with Document Links	Mar 29, 2022	Document ClassificationLanguage Modeling	CodeCode Available	2
Comparing in context: Improving cosine similarity measures with a metric tensor	Mar 28, 2022	Language ModelingLanguage Modelling	—Unverified	0
ANNA: Enhanced Language Representation for Question Answering	Mar 28, 2022	Language ModelingLanguage Modelling	—Unverified	0
EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background Prediction in English	Mar 28, 2022	Cultural Vocal Bursts Intensity PredictionLanguage Modeling	—Unverified	0
Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model	Mar 28, 2022	image-classificationImage Classification	CodeCode Available	1
STaR: Bootstrapping Reasoning With Reasoning	Mar 28, 2022	Common Sense ReasoningLanguage Modeling	CodeCode Available	2
Autoregressive Linguistic Steganography Based on BERT and Consistency Coding	Mar 26, 2022	Language ModellingLinguistic steganography	—Unverified	0
A Roadmap for Big Model	Mar 26, 2022	Language ModelingLanguage Modelling	—Unverified	0
CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis	Mar 25, 2022	Code GenerationHumanEval	CodeCode Available	6
Can Unsupervised Knowledge Transfer from Social Discussions Help Argument Mining?	Mar 24, 2022	Argument MiningLanguage Modeling	CodeCode Available	0
Evaluating Distributional Distortion in Neural Language Modeling	Mar 24, 2022	Language ModelingLanguage Modelling	—Unverified	0
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available	0
Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5)	Mar 24, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Mix and Match: Learning-free Controllable Text Generation using Energy Language Models	Mar 24, 2022	AttributeLanguage Modeling	CodeCode Available	1
Token Dropping for Efficient BERT Pretraining	Mar 24, 2022	Language ModelingLanguage Modelling	—Unverified	0
Language Models that Seek for Knowledge: Modular Search & Generation for Dialogue and Prompt Completion	Mar 24, 2022	Language ModelingLanguage Modelling	—Unverified	0
Linking Emergent and Natural Languages via Corpus Transfer	Mar 24, 2022	AttributeDisentanglement	CodeCode Available	1
Prompt-based System for Personality and Interpersonal Reactivity Prediction	Mar 23, 2022	Data AugmentationLanguage Modeling	—Unverified	0
Linearizing Transformer with Key-Value Memory	Mar 23, 2022	Abstractive Text SummarizationLanguage Modeling	—Unverified	0
What to Hide from Your Students: Attention-Guided Masked Image Modeling	Mar 23, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
VLSP 2021 - ViMRC Challenge: Vietnamese Machine Reading Comprehension	Mar 22, 2022	Language ModellingMachine Reading Comprehension	—Unverified	0
Open-Vocabulary DETR with Conditional Matching	Mar 22, 2022	Language Modellingobject-detection	CodeCode Available	2
Towards Textual Out-of-Domain Detection without In-Domain Labels	Mar 22, 2022	Contrastive Learningintent-classification	—Unverified	0
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation	Mar 22, 2022	Decision MakingLanguage Modeling	CodeCode Available	1
Better Language Model with Hypernym Class Prediction	Mar 21, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Enhancing Speech Recognition Decoding via Layer Aggregation	Mar 21, 2022	Language Modellingspeech-recognition	—Unverified	0
Language modeling via stochastic processes	Mar 21, 2022	Contrastive LearningLanguage Modeling	CodeCode Available	1
Self-Consistency Improves Chain of Thought Reasoning in Language Models	Mar 21, 2022	ARCArithmetic Reasoning	CodeCode Available	1
TCM-SD: A Benchmark for Probing Syndrome Differentiation via Natural Language Processing	Mar 21, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
How does the pre-training objective affect what large language models learn about linguistic properties?	Mar 20, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Immersive Text Game and Personality Classification	Mar 20, 2022	ClassificationLanguage Modeling	—Unverified	0
Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation	Mar 20, 2022	Knowledge DistillationLanguage Modelling	CodeCode Available	1
Dependency-based Mixture Language Models	Mar 19, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model	Mar 19, 2022	Data AugmentationLanguage Modeling	CodeCode Available	0
On Robust Prefix-Tuning for Text Classification	Mar 19, 2022	ClassificationLanguage Modelling	CodeCode Available	1
HiStruct+: Improving Extractive Text Summarization with Hierarchical Structure Information	Mar 17, 2022	Extractive SummarizationExtractive Text Summarization	—Unverified	0
Triangular Transfer: Freezing the Pivot for Triangular Machine Translation	Mar 17, 2022	Language ModelingLanguage Modelling	—Unverified	0
Universal Conditional Masked Language Pre-training for Neural Machine Translation	Mar 17, 2022	DecoderLanguage Modeling	—Unverified	0
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection	Mar 17, 2022	Hate Speech DetectionLanguage Modelling	CodeCode Available	2

Show:10 25 50

← PrevPage 242 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified