Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9451–9500 of 17610 papers

Title	Date	Tasks	Status	Hype
AD-AutoGPT: An Autonomous GPT for Alzheimer's Disease Infodemiology	Jun 16, 2023	Language ModelingLanguage Modelling	—Unverified	0
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System	Jun 16, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness	Jun 16, 2023	Distributed OptimizationLanguage Modeling	CodeCode Available	1
Process Knowledge-infused Learning for Clinician-friendly Explanations	Jun 16, 2023	DiagnosticExplainable Artificial Intelligence (XAI)	—Unverified	0
Learning to Summarize and Answer Questions about a Virtual Robot's Past Actions	Jun 16, 2023	Language ModelingLanguage Modelling	—Unverified	0
Inspire creativity with ORIBA: Transform Artists' Original Characters into Chatbots through Large Language Model	Jun 16, 2023	ChatbotLanguage Modeling	—Unverified	0
CMLM-CSE: Based on Conditional MLM Contrastive Learning for Sentence Embeddings	Jun 16, 2023	Contrastive LearningLanguage Modeling	—Unverified	0
Semantic HELM: A Human-Readable Memory for Reinforcement Learning	Jun 15, 2023	Dota 2Language Modelling	CodeCode Available	1
Propagating Knowledge Updates to LMs Through Distillation	Jun 15, 2023	knowledge editingLanguage Modelling	CodeCode Available	1
ChessGPT: Bridging Policy Learning and Language Modeling	Jun 15, 2023	Decision MakingLanguage Modeling	CodeCode Available	1
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models	Jun 15, 2023	Electrical EngineeringFew-Shot Learning	—Unverified	0
Block-State Transformers	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified	0
Distillation Strategies for Discriminative Speech Recognition Rescoring	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified	0
Diffusion Models for Open-Vocabulary Segmentation	Jun 15, 2023	Language ModellingSegmentation	—Unverified	0
Can ChatGPT pass the Vietnamese National High School Graduation Examination?	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified	0
Personalized Image Enhancement Featuring Masked Style Modeling	Jun 15, 2023	Image EnhancementLanguage Modeling	CodeCode Available	0
Language-Guided Music Recommendation for Video via Prompt Analogies	Jun 15, 2023	4kLanguage Modelling	—Unverified	0
Mapping Researcher Activity based on Publication Data by means of Transformers	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified	0
Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation	Jun 15, 2023	Automatic Speech RecognitionClustering	CodeCode Available	1
Neural models for Factual Inconsistency Classification with Explanations	Jun 15, 2023	8kClassification	CodeCode Available	0
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration	Jun 15, 2023	Language ModelingLanguage Modelling	CodeCode Available	3
One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support	Jun 15, 2023	BenchmarkingInformation Retrieval	CodeCode Available	0
Generate to Understand for Representation	Jun 14, 2023	Contrastive LearningGPU	CodeCode Available	1
Revealing the structure of language model capabilities	Jun 14, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
CLIPXPlore: Coupled CLIP and Shape Spaces for 3D Shape Exploration	Jun 14, 2023	AttributeLanguage Modeling	—Unverified	0
Recipes for Sequential Pre-training of Multilingual Encoder and Seq2Seq Models	Jun 14, 2023	DecoderLanguage Modeling	—Unverified	0
Toward Grounded Commonsense Reasoning	Jun 14, 2023	Language Modelling	—Unverified	0
Radiology-GPT: A Large Language Model for Radiology	Jun 14, 2023	Language ModelingLanguage Modelling	—Unverified	0
World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models	Jun 14, 2023	Grounded Open Vocabulary AcquisitionLanguage Modeling	CodeCode Available	1
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified	0
Large-scale Language Model Rescoring on Long-form Data	Jun 13, 2023	FormLanguage Modeling	—Unverified	0
I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models	Jun 13, 2023	Adversarial AttackDecoder	—Unverified	0
PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and Pause-based Prosody Modeling	Jun 13, 2023	Language ModelingLanguage Modelling	—Unverified	0
NoCoLA: The Norwegian Corpus of Linguistic Acceptability	Jun 13, 2023	Binary ClassificationDiagnostic	CodeCode Available	0
Tokenization with Factorized Subword Encoding	Jun 13, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences	Jun 13, 2023	Language ModelingLanguage Modelling	CodeCode Available	3
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models	Jun 13, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error Correction through Low-Rank Adaptation	Jun 13, 2023	Language ModelingLanguage Modelling	CodeCode Available	4
Augmenting Language Models with Long-Term Memory	Jun 12, 2023	FormIn-Context Learning	—Unverified	0
EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing	Jun 12, 2023	Language ModelingLanguage Modelling	—Unverified	0
Global and Local Semantic Completion Learning for Vision-Language Pre-training	Jun 12, 2023	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
Gradient Ascent Post-training Enhances Language Model Generalization	Jun 12, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
InstructP2P: Learning to Edit 3D Point Clouds with Text Instructions	Jun 12, 2023	Language ModelingLanguage Modelling	—Unverified	0
On the N-gram Approximation of Pre-trained Language Models	Jun 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Large language models and (non-)linguistic recursion	Jun 12, 2023	Language ModelingLanguage Modelling	—Unverified	0
Weakly supervised information extraction from inscrutable handwritten document images	Jun 12, 2023	Language ModelingLanguage Modelling	—Unverified	0
Valley: Video Assistant with Large Language model Enhanced abilitY	Jun 12, 2023	Action RecognitionInstruction Following	CodeCode Available	2
Waffling around for Performance: Visual Classification with Random Words and Broad Concepts	Jun 12, 2023	ClassificationLanguage Modeling	CodeCode Available	1
Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method	Jun 11, 2023	Knowledge DistillationLanguage Modeling	CodeCode Available	1
GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model	Jun 11, 2023	General KnowledgeKnowledge Distillation	CodeCode Available	1

Show:10 25 50

← PrevPage 190 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified