Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11551–11600 of 17610 papers

Title	Date	Tasks	Status	Hype
An Empirical Study on Pseudo-log-likelihood Bias Measures for Masked Language Models Using Paraphrased Sentences	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Unsupervised Paraphrasability Prediction for Compound Nominalizations	Jul 1, 2022	Abstract Meaning RepresentationLanguage Modeling	—Unverified	0
Zuo Zhuan Ancient Chinese Dataset for Word Sense Disambiguation	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
TUG-CIC at SemEval-2021 Task 6: Two-stage Fine-tuning for Intended Sarcasm Detection	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
You Don’t Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers’ Private Personas	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Uncertainty and Inclusivity in Gender Bias Annotation: An Annotation Taxonomy and Annotated Datasets of British English Text	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
ValCAT: Variable-Length Contextualized Adversarial Transformations Using Encoder-Decoder Language Model	Jul 1, 2022	DecoderLanguage Modeling	CodeCode Available	0
Masking Morphosyntactic Categories to Evaluate Salience for Schizophrenia Diagnosis	Jul 1, 2022	ClassificationLanguage Modeling	—Unverified	0
An Annotated Dataset and Automatic Approaches for Discourse Mode Identification in Low-resource Bengali Language	Jul 1, 2022	DescriptiveLanguage Modeling	—Unverified	0
AnaLog: Testing Analytical and Deductive Logic Learnability in Language Models	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Forecasting Future World Events with Neural Networks	Jun 30, 2022	Decision MakingDiversity	CodeCode Available	1
BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing	Jun 30, 2022	DiversityLanguage Model Evaluation	CodeCode Available	2
"Diversity and Uncertainty in Moderation" are the Key to Data Selection for Multilingual Few-shot Transfer	Jun 30, 2022	DiversityLanguage Modeling	—Unverified	0
Language model compression with weighted low-rank factorization	Jun 30, 2022	Language ModelingLanguage Modelling	—Unverified	0
Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a Study on Indonesian Tweets	Jun 30, 2022	Language ModellingMisinformation	CodeCode Available	0
esCorpius: A Massive Spanish Crawling Corpus	Jun 30, 2022	Language Modelling	—Unverified	0
GSCLIP : A Framework for Explaining Distribution Shifts in Natural Language	Jun 30, 2022	Language ModelingLanguage Modelling	—Unverified	0
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations	Jun 30, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
GPTs at Factify 2022: Prompt Aided Fact-Verification	Jun 29, 2022	Fact VerificationLanguage Modeling	—Unverified	0
Improving Deliberation by Text-Only and Semi-Supervised Training	Jun 29, 2022	DecoderLanguage Modeling	—Unverified	0
Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems	Jun 29, 2022	Language ModelingLanguage Modelling	—Unverified	0
Towards a Data-Driven Requirements Engineering Approach: Automatic Analysis of User Reviews	Jun 29, 2022	ClassificationLanguage Modeling	CodeCode Available	0
Simple and Effective Multi-sentence TTS with Expressive and Coherent Prosody	Jun 29, 2022	Language ModelingLanguage Modelling	—Unverified	0
Solving Quantitative Reasoning Problems with Language Models	Jun 29, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2
Knowledge Distillation of Transformer-based Language Models Revisited	Jun 29, 2022	GPUKnowledge Distillation	—Unverified	0
Adaptive Multi-view Rule Discovery for Weakly-Supervised Compatible Products Prediction	Jun 28, 2022	AttributeLanguage Modeling	—Unverified	0
CC-Riddle: A Question Answering Dataset of Chinese Character Riddles	Jun 28, 2022	General KnowledgeLanguage Modelling	CodeCode Available	1
Few-Shot Fine-Grained Entity Typing with Automatic Label Interpretation and Instance Generation	Jun 28, 2022	Entity TypingLanguage Modeling	CodeCode Available	1
Long Range Language Modeling via Gated State Spaces	Jun 27, 2022	ArticlesLanguage Modeling	CodeCode Available	0
Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding	Jun 27, 2022	Document Classificationdocument understanding	—Unverified	0
A Zero-Shot Classification Approach for a Word-Guessing Challenge	Jun 27, 2022	ClassificationLanguage Modeling	—Unverified	0
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One	Jun 26, 2022	Image GenerationLanguage Modeling	—Unverified	0
Protoformer: Embedding Prototypes for Transformers	Jun 25, 2022	ClassificationGeneral Classification	CodeCode Available	1
TEVR: Improving Speech Recognition by Token Entropy Variance Reduction	Jun 25, 2022	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available	2
Construct a Sentence with Multiple Specified Words	Jun 25, 2022	Language ModelingLanguage Modelling	—Unverified	0
Distilling a Pretrained Language Model to a Multilingual ASR Model	Jun 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Evaluating Generative Patent Language Models	Jun 23, 2022	Language Modelling	—Unverified	0
Mining Error Templates for Grammatical Error Correction	Jun 23, 2022	Grammatical Error CorrectionLanguage Modeling	CodeCode Available	2
Self-Supervised Learning of Brain Dynamics from Broad Neuroimaging Data	Jun 22, 2022	Causal Language ModelingLanguage Modeling	CodeCode Available	1
Efficient and effective training of language and graph neural network models	Jun 22, 2022	Edge ClassificationGraph Neural Network	—Unverified	0
Revisiting Group Differences in High-Dimensional Choices: Method and Application to Congressional Speech	Jun 22, 2022	Language ModelingLanguage Modelling	—Unverified	0
DP-Parse: Finding Word Boundaries from Raw Speech with an Instance Lexicon	Jun 22, 2022	Language ModelingLanguage Modelling	—Unverified	0
GODEL: Large-Scale Pre-Training for Goal-Directed Dialog	Jun 22, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Using cognitive psychology to understand GPT-3	Jun 21, 2022	Decision MakingLanguage Modeling	—Unverified	0
Knowledge Graph Fusion for Language Model Fine-tuning	Jun 21, 2022	Language ModelingLanguage Modelling	—Unverified	0
Questions Are All You Need to Train a Dense Passage Retriever	Jun 21, 2022	AllDenoising	CodeCode Available	1
Don't Forget About Pronouns: Removing Gender Bias in Language Models Without Losing Factual Gender Information	Jun 21, 2022	Language ModelingLanguage Modelling	—Unverified	0
BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing	Jun 21, 2022	DecoderLanguage Modeling	CodeCode Available	1
General Framework for Reversible Data Hiding in Texts Based on Masked Language Modeling	Jun 21, 2022	Language ModelingLanguage Modelling	—Unverified	0
KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in Low-Resource NLP	Jun 21, 2022	AllData Augmentation	—Unverified	0

Show:10 25 50

← PrevPage 232 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified