Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8701–8750 of 17610 papers

Title	Date	Tasks	Status	Hype
Keeping in Time: Adding Temporal Context to Sentiment Analysis Models	Sep 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
Substituting Data Annotation with Balanced Updates and Collective Loss in Multi-label Text Classification	Sep 24, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Calibrating LLM-Based Evaluator	Sep 23, 2023	In-Context LearningLanguage Modeling	CodeCode Available	0
From Text to Source: Results in Detecting Large Language Model-Generated Content	Sep 23, 2023	AttributeLanguage Modeling	—Unverified	0
An In-depth Survey of Large Language Model-based Artificial Intelligence Agents	Sep 23, 2023	AI AgentLanguage Modeling	—Unverified	0
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models	Sep 23, 2023	Code CompletionHallucination	CodeCode Available	1
GlotScript: A Resource and Tool for Low Resource Writing System Identification	Sep 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Enhancing Student Performance Prediction on Learnersourced Questions with SGNN-LLM Synergy	Sep 23, 2023	Contrastive LearningLanguage Modeling	—Unverified	0
Resolving References in Visually-Grounded Dialogue via Text Generation	Sep 23, 2023	Image RetrievalLanguage Modeling	CodeCode Available	0
Is it Possible to Modify Text to a Target Readability Level? An Initial Investigation Using Zero-Shot Large Language Models	Sep 22, 2023	Language ModellingReading Comprehension	—Unverified	0
Topological Data Mapping of Online Hate Speech, Misinformation, and General Mental Health: A Large Language Model Based Study	Sep 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
Learning to Diversify Neural Text Generation via Degenerative Model	Sep 22, 2023	Dialogue GenerationDiversity	—Unverified	0
AntiBARTy Diffusion for Property Guided Antibody Design	Sep 22, 2023	DiversityLanguage Modeling	—Unverified	0
Contextual Emotion Estimation from Image Captions	Sep 22, 2023	Image CaptioningLanguage Modelling	—Unverified	0
AnglE-optimized Text Embeddings	Sep 22, 2023	Language ModellingLarge Language Model	CodeCode Available	2
Construction contract risk identification based on knowledge-augmented language model	Sep 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
DRG-LLaMA : Tuning LLaMA Model to Predict Diagnosis-related Group for Hospitalized Patients	Sep 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
PlanFitting: Personalized Exercise Planning with Large Language Model-driven Conversational Agent	Sep 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
OpenAi's GPT4 as coding assistant	Sep 22, 2023	Code GenerationLanguage Modeling	CodeCode Available	0
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models	Sep 21, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
Rehearsal: Simulating Conflict to Teach Conflict Resolution	Sep 21, 2023	counterfactualLanguage Modelling	—Unverified	0
SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging Semantic, Lexical, and Hierarchical Features	Sep 21, 2023	ArticlesEntity Linking	—Unverified	0
PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan pre-trained language models	Sep 21, 2023	Language ModelingLanguage Modelling	—Unverified	0
LLMR: Real-time Prompting of Interactive Worlds using Large Language Models	Sep 21, 2023	Language ModelingLanguage Modelling	—Unverified	0
SCOB: Universal Text Understanding via Character-wise Supervised Contrastive Learning with Online Text Rendering for Bridging Domain Gap	Sep 21, 2023	Contrastive Learningdocument understanding	CodeCode Available	0
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent	Sep 21, 2023	3D visual groundingLanguage Modeling	CodeCode Available	2
AceGPT, Localizing Large Language Models in Arabic	Sep 21, 2023	Instruction FollowingLanguage Modeling	CodeCode Available	1
Code Soliloquies for Accurate Calculations in Large Language Models	Sep 21, 2023	Language ModellingLarge Language Model	CodeCode Available	0
Inspire the Large Language Model by External Knowledge on BioMedical Named Entity Recognition	Sep 21, 2023	Language ModelingLanguage Modelling	—Unverified	0
Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation	Sep 21, 2023	Language ModellingText Generation	CodeCode Available	1
A Sentence Speaks a Thousand Images: Domain Generalization through Distilling CLIP with Language Guidance	Sep 21, 2023	Domain GeneralizationKnowledge Distillation	CodeCode Available	1
Constraints First: A New MDD-based Model to Generate Sentences Under Constraints	Sep 21, 2023	Combinatorial OptimizationLanguage Modelling	—Unverified	0
GPT-MolBERTa: GPT Molecular Features Language Model for molecular property prediction	Sep 20, 2023	Language ModelingLanguage Modelling	—Unverified	0
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model	Sep 20, 2023	8kLanguage Modeling	CodeCode Available	3
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models	Sep 20, 2023	Language ModellingMachine Translation	CodeCode Available	2
"It's a Fair Game", or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents	Sep 20, 2023	Language ModelingLanguage Modelling	—Unverified	0
Large-scale Pretraining Improves Sample Efficiency of Active Learning based Molecule Virtual Screening	Sep 20, 2023	Active LearningBayesian Optimization	—Unverified	0
Retrieve-Rewrite-Answer: A KG-to-Text Enhanced LLMs Framework for Knowledge Graph Question Answering	Sep 20, 2023	Graph Question AnsweringLanguage Modeling	CodeCode Available	1
Safurai 001: New Qualitative Approach for Code LLM Evaluation	Sep 20, 2023	Language ModelingLanguage Modelling	CodeCode Available	4
StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding	Sep 20, 2023	Chart Question AnsweringChart Understanding	CodeCode Available	2
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute	Sep 20, 2023	Language Modelling	CodeCode Available	0
Overview of AuTexTification at IberLEF 2023: Detection and Attribution of Machine-Generated Text in Multiple Domains	Sep 20, 2023	ArticlesAttribute	CodeCode Available	0
Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model	Sep 20, 2023	ChatbotLanguage Modeling	CodeCode Available	1
ChatGPT-4 as a Tool for Reviewing Academic Books in Spanish	Sep 20, 2023	Language ModellingReading Comprehension	—Unverified	0
CPLLM: Clinical Prediction with Large Language Models	Sep 20, 2023	Disease PredictionLanguage Modeling	CodeCode Available	1
Generative Agent-Based Modeling: Unveiling Social System Dynamics through Coupling Mechanistic Models with Generative Artificial Intelligence	Sep 20, 2023	Decision MakingLanguage Modeling	—Unverified	0
Scalable Acceleration for Classification-Based Derivative-Free Optimization	Sep 20, 2023	ClassificationLanguage Modeling	—Unverified	0
Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions	Sep 20, 2023	Language ModellingLarge Language Model	—Unverified	0
DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services	Sep 20, 2023	Language ModellingLarge Language Model	CodeCode Available	2
Enhancing Health Data Interoperability with Large Language Models: A FHIR Study	Sep 19, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 175 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified