Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8351–8400 of 17610 papers

Title	Date	Tasks	Status	Hype
Data Augmentations for Improved (Large) Language Model Generalization	Oct 19, 2023	Attributecounterfactual	—Unverified	0
Identifying and Adapting Transformer-Components Responsible for Gender Bias in an English Language Model	Oct 19, 2023	Causal DiscoveryLanguage Modeling	CodeCode Available	0
Character-level Chinese Backpack Language Models	Oct 19, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
GestureGPT: Toward Zero-Shot Free-Form Hand Gesture Understanding with Large Language Model Agents	Oct 19, 2023	Common Sense ReasoningForm	CodeCode Available	0
Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks	Oct 19, 2023	Few-Shot LearningIn-Context Learning	—Unverified	0
CLAIR: Evaluating Image Captions with Large Language Models	Oct 19, 2023	DiversityImage Captioning	—Unverified	0
Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer	Oct 19, 2023	8kComputational Efficiency	—Unverified	0
A Systematic Study of Performance Disparities in Multilingual Task-Oriented Dialogue Systems	Oct 19, 2023	Language ModelingLanguage Modelling	—Unverified	0
ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding	Oct 19, 2023	Image CaptioningLanguage Modeling	CodeCode Available	0
Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture	Oct 18, 2023	4kimage-classification	CodeCode Available	2
Position Interpolation Improves ALiBi Extrapolation	Oct 18, 2023	Language ModellingPosition	CodeCode Available	2
Solving the multiplication problem of a large language model system using a graph-based method	Oct 18, 2023	ChatbotLanguage Modeling	—Unverified	0
Solving Hard Analogy Questions with Relation Embedding Chains	Oct 18, 2023	Knowledge GraphsLanguage Modeling	CodeCode Available	0
Preference Optimization for Molecular Language Models	Oct 18, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Pseudointelligence: A Unifying Framework for Language Model Evaluation	Oct 18, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences	Oct 18, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Harnessing Dataset Cartography for Improved Compositional Generalization in Transformers	Oct 18, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Document-Level Language Models for Machine Translation	Oct 18, 2023	Language ModelingLanguage Modelling	—Unverified	0
Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model	Oct 18, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
ChatGPT-guided Semantics for Zero-shot Learning	Oct 18, 2023	AttributeLanguage Modelling	CodeCode Available	0
Generative error correction for code-switching speech recognition using large language models	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Large Language Model Prediction Capabilities: Evidence from a Real-World Forecasting Tournament	Oct 17, 2023	Language ModelingLanguage Modelling	—Unverified	0
Multi-stage Large Language Model Correction for Speech Recognition	Oct 17, 2023	Language ModelingLanguage Modelling	—Unverified	0
Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging	Oct 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Revealing the Unwritten: Visual Investigation of Beam Search Trees to Address Language Model Prompting Challenges	Oct 17, 2023	Language ModelingLanguage Modelling	—Unverified	0
Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting	Oct 17, 2023	Language ModellingSensitivity	CodeCode Available	1
Learn Your Tokens: Word-Pooled Tokenization for Language Modeling	Oct 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Leveraging Large Language Model for Automatic Evolving of Industrial Data-Centric R&D Cycle	Oct 17, 2023	Anomaly DetectionDecision Making	—Unverified	0
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models	Oct 17, 2023	BenchmarkingLanguage Modelling	CodeCode Available	1
BitNet: Scaling 1-bit Transformers for Large Language Models	Oct 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset	Oct 17, 2023	Language Modelling	CodeCode Available	0
Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models	Oct 17, 2023	Decision MakingLanguage Modeling	—Unverified	0
Correction Focused Language Model Training for Speech Recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ChapGTP, ILLC's Attempt at Raising a BabyLM: Improving Data Efficiency by Automatic Task Formation	Oct 17, 2023	Data AugmentationLanguage Modeling	—Unverified	0
Watermarking LLMs with Weight Quantization	Oct 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Utilising a Large Language Model to Annotate Subject Metadata: A Case Study in an Australian National Research Data Catalogue	Oct 17, 2023	In-Context LearningLanguage Modeling	—Unverified	0
ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text Processing	Oct 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
DavIR: Data Selection via Implicit Reward for Large Language Models	Oct 16, 2023	Causal Language ModelingGSM8K	—Unverified	0
SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT	Oct 16, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Swap and Predict -- Predicting the Semantic Changes in Words across Corpora by Context Swapping	Oct 16, 2023	Change DetectionLanguage Modelling	CodeCode Available	0
EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities	Oct 16, 2023	Decision MakingLanguage Modeling	CodeCode Available	1
Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset	Oct 16, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
MechGPT, a language-based strategy for mechanics and materials modeling that connects knowledge across scales, disciplines and modalities	Oct 16, 2023	Knowledge GraphsLanguage Modelling	—Unverified	0
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling	Oct 16, 2023	HallucinationLanguage Modeling	CodeCode Available	1
Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning	Oct 16, 2023	Language ModellingNavigate	—Unverified	0
Llemma: An Open Language Model For Mathematics	Oct 16, 2023	Arithmetic ReasoningAutomated Theorem Proving	CodeCode Available	3
Untying the Reversal Curse via Bidirectional Language Model Editing	Oct 16, 2023	knowledge editingLanguage Modeling	CodeCode Available	1
Use of probabilistic phrases in a coordination game: human versus GPT-4	Oct 16, 2023	Language ModelingLanguage Modelling	—Unverified	0
Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance	Oct 16, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 168 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified