Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10051–10100 of 17610 papers

Title	Date	Tasks	Status	Hype
Explainable Verbal Reasoner Plus (EVR+): A Natural Language Reasoning Framework that Supports Diverse Compositional Reasoning	Apr 28, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations	Apr 28, 2023	Discourse ParsingIn-Context Learning	—Unverified	0
ChatGPT in the Classroom: An Analysis of Its Strengths and Weaknesses for Solving Undergraduate Computer Science Questions	Apr 28, 2023	ChatbotLanguage Modeling	—Unverified	0
CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data	Apr 28, 2023	document understandingLanguage Modeling	CodeCode Available	1
Framing the News:From Human Perception to Large Language Model Inferences	Apr 27, 2023	ArticlesLanguage Modeling	—Unverified	0
A Modular Approach for Multilingual Timex Detection and Normalization using Deep Learning and Grammar-based methods	Apr 27, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages	Apr 27, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
q2d: Turning Questions into Dialogs to Teach Models How to Search	Apr 27, 2023	Language ModellingLarge Language Model	—Unverified	0
LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions	Apr 27, 2023	Common Sense ReasoningCoreference Resolution	CodeCode Available	2
SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish	Apr 27, 2023	GPULanguage Modeling	CodeCode Available	0
PMC-LLaMA: Towards Building Open-source Language Models for Medicine	Apr 27, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Large Language Models are Strong Zero-Shot Retriever	Apr 27, 2023	Language ModelingLanguage Modelling	—Unverified	0
Learning Human-Human Interactions in Images from Weak Textual Supervision	Apr 27, 2023	Human-Human Interaction RecognitionImage Captioning	—Unverified	0
Controlled Text Generation with Natural Language Instructions	Apr 27, 2023	In-Context LearningLanguage Modelling	—Unverified	0
Energy-based Models are Zero-Shot Planners for Compositional Scene Rearrangement	Apr 27, 2023	Language ModelingLanguage Modelling	—Unverified	0
Vision Conformer: Incorporating Convolutions into Vision Transformer Layers	Apr 27, 2023	Inductive BiasLanguage Modeling	CodeCode Available	0
ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT	Apr 27, 2023	Data AugmentationLanguage Modeling	—Unverified	0
The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in Classification Tasks	Apr 26, 2023	Data AugmentationLanguage Modelling	CodeCode Available	1
Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from Literature with GPT-3	Apr 26, 2023	Language ModellingRelation Extraction	—Unverified	0
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond	Apr 26, 2023	Language ModellingNatural Language Understanding	CodeCode Available	6
Enhancing Large Language Model with Self-Controlled Memory Framework	Apr 26, 2023	Book summarizationDocument Summarization	CodeCode Available	1
MasonNLP+ at SemEval-2023 Task 8: Extracting Medical Questions, Experiences and Claims from Social Media using Knowledge-Augmented Pre-trained Language Models	Apr 26, 2023	Language ModelingLanguage Modelling	—Unverified	0
What's in a Name? Evaluating Assembly-Part Semantic Knowledge in Language Models through User-Provided Names in CAD Files	Apr 25, 2023	Language Modelling	CodeCode Available	0
Hypernymization of named entity-rich captions for grounding-based multi-modal pretraining	Apr 25, 2023	ArticlesImage-text Retrieval	—Unverified	0
Generative Relevance Feedback with Large Language Models	Apr 25, 2023	ArticlesLanguage Modeling	—Unverified	0
Compressing Sentence Representation with maximum Coding Rate Reduction	Apr 25, 2023	Language ModelingLanguage Modelling	—Unverified	0
Empirical Evaluation of ChatGPT on Requirements Information Retrieval Under Zero-Shot Setting	Apr 25, 2023	Information RetrievalLanguage Modelling	CodeCode Available	0
CitePrompt: Using Prompts to Identify Citation Intent in Scientific Papers	Apr 25, 2023	ARCCitation Intent Classification	CodeCode Available	0
Blockchain Large Language Models	Apr 25, 2023	Anomaly DetectionIntrusion Detection	—Unverified	0
GMNLP at SemEval-2023 Task 12: Sentiment Analysis with Phylogeny-Based Adapters	Apr 25, 2023	Language ModelingLanguage Modelling	—Unverified	0
State Spaces Aren't Enough: Machine Translation Needs Attention	Apr 25, 2023	DecoderLanguage Modeling	—Unverified	0
Nondeterministic Stacks in Neural Networks	Apr 25, 2023	Language ModelingLanguage Modelling	—Unverified	0
KINLP at SemEval-2023 Task 12: Kinyarwanda Tweet Sentiment Analysis	Apr 25, 2023	Language ModelingLanguage Modelling	—Unverified	0
Joint Semantic and Structural Representation Learning for Enhancing User Preference Modelling	Apr 24, 2023	Knowledge GraphsLanguage Modelling	—Unverified	0
Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM	Apr 24, 2023	Instruction FollowingLanguage Modelling	CodeCode Available	1
Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating Holistic Domain Knowledge of Large Language Model--A Preliminary Release	Apr 23, 2023	Language ModelingLanguage Modelling	—Unverified	0
A Lightweight Constrained Generation Alternative for Query-focused Summarization	Apr 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Transformer-Based Language Model Surprisal Predicts Human Reading Times Best with About Two Billion Training Tokens	Apr 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval	Apr 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
LaMP: When Large Language Models Meet Personalization	Apr 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Semantic Specialization for Knowledge-based Word Sense Disambiguation	Apr 22, 2023	Language ModellingReranking	CodeCode Available	0
Recurrent Neural Networks and Long Short-Term Memory Networks: Tutorial and Survey	Apr 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
Dialectical language model evaluation: An initial appraisal of the commonsense spatial reasoning abilities of LLMs	Apr 22, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
Evaluating Transformer Language Models on Arithmetic Operations Using Number Decomposition	Apr 21, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
KitchenScale: Learning to predict ingredient quantities from recipe contexts	Apr 21, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Robot-Enabled Construction Assembly with Automated Sequence Planning based on ChatGPT: RoboGPT	Apr 21, 2023	Language ModelingLanguage Modelling	—Unverified	0
Spatial-Language Attention Policies for Efficient Robot Learning	Apr 21, 2023	Decision MakingLanguage Modelling	—Unverified	0
SkinGPT-4: An Interactive Dermatology Diagnostic System with Visual Large Language Model	Apr 21, 2023	DiagnosticLanguage Modeling	—Unverified	0
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models	Apr 20, 2023	Image DescriptionLanguage Modelling	CodeCode Available	7
CEIL: A General Classification-Enhanced Iterative Learning Framework for Text Clustering	Apr 20, 2023	ClusteringDeep Clustering	—Unverified	0

Show:10 25 50

← PrevPage 202 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified