Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11001–11050 of 17610 papers

Title	Date	Tasks	Status
PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative Dialogue with LLM	Jul 18, 2023	Image GenerationLanguage Modeling	—Unverified
Multimodal LLMs for health grounded in individual-specific data	Jul 18, 2023	Language ModellingLarge Language Model	—Unverified
Promoting Exploration in Memory-Augmented Adam using Critical Momenta	Jul 18, 2023	image-classificationImage Classification	CodeCode Available
SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs	Jul 18, 2023	Generative Adversarial NetworkLanguage Modeling	—Unverified
Linearized Relative Positional Encoding	Jul 18, 2023	image-classificationImage Classification	CodeCode Available
Integration of Large Language Models and Federated Learning	Jul 18, 2023	Federated LearningLanguage Modelling	—Unverified
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning	Jul 18, 2023	Instruction FollowingLanguage Modeling	—Unverified
Domain Knowledge Distillation from Large Language Model: An Empirical Study in the Autonomous Driving Domain	Jul 17, 2023	Autonomous DrivingKnowledge Distillation	—Unverified
Creating Image Datasets in Agricultural Environments using DALL.E: Generative AI-Powered Large Language Model	Jul 17, 2023	Decision MakingImage Generation	—Unverified
Gender mobility in the labor market with skills-based matching models	Jul 17, 2023	Language Modelling	—Unverified
Abductive Reasoning with the GPT-4 Language Model: Case studies from criminal investigation, medical practice, scientific research	Jul 17, 2023	Language ModelingLanguage Modelling	—Unverified
Using an LLM to Help With Code Understanding	Jul 17, 2023	Code GenerationLanguage Modelling	—Unverified
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages	Jul 16, 2023	Cross-Lingual NERKnowledge Distillation	—Unverified
Fast Quantum Algorithm for Attention Computation	Jul 16, 2023	Language ModelingLanguage Modelling	—Unverified
The Potential and Pitfalls of using a Large Language Model such as ChatGPT or GPT-4 as a Clinical Assistant	Jul 16, 2023	DiagnosticLanguage Modeling	—Unverified
Transformers are Universal Predictors	Jul 15, 2023	Language ModelingLanguage Modelling	—Unverified
Intuitive Access to Smartphone Settings Using Relevance Model Trained by Contrastive Learning	Jul 15, 2023	Contrastive LearningKnowledge Distillation	—Unverified
Improving BERT with Hybrid Pooling Network and Drop Mask	Jul 14, 2023	Language ModelingLanguage Modelling	—Unverified
MorphPiece : A Linguistic Tokenizer for Large Language Models	Jul 14, 2023	Language ModelingLanguage Modelling	—Unverified
Population Expansion for Training Language Models with Private Federated Learning	Jul 14, 2023	Domain AdaptationFederated Learning	—Unverified
Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis	Jul 14, 2023	In-Context LearningLanguage Modelling	—Unverified
Making the Most Out of the Limited Context Length: Predictive Power Varies with Clinical Note Type and Note Section	Jul 13, 2023	Language ModelingLanguage Modelling	—Unverified
Electoral Agitation Data Set: The Use Case of the Polish Election	Jul 13, 2023	Language ModelingLanguage Modelling	CodeCode Available
Does Collaborative Human-LM Dialogue Generation Help Information Extraction from Human Dialogues?	Jul 13, 2023	Dialogue GenerationDialogue State Tracking	—Unverified
Instruction Mining: Instruction Data Selection for Tuning Large Language Models	Jul 12, 2023	Instruction FollowingLanguage Modeling	—Unverified
Self-Adaptive Large Language Model (LLM)-Based Multiagent Systems	Jul 12, 2023	Language ModelingLanguage Modelling	—Unverified
PolyLM: An Open Source Polyglot Large Language Model	Jul 12, 2023	Language ModelingLanguage Modelling	—Unverified
Transformers in Reinforcement Learning: A Survey	Jul 12, 2023	Cloud ComputingCombinatorial Optimization	—Unverified
Lightweight reranking for language model generations	Jul 11, 2023	Code GenerationLanguage Modeling	—Unverified
SuryaKiran at MEDIQA-Sum 2023: Leveraging LoRA for Clinical Dialogue Summarization	Jul 11, 2023	Language ModelingLanguage Modelling	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented Dialogue with Symbolic Scene Representation	Jul 10, 2023	coreference-resolutionCoreference Resolution	—Unverified
KU-DMIS-MSRA at RadSum23: Pre-trained Vision-Language Model for Radiology Report Summarization	Jul 10, 2023	Language ModelingLanguage Modelling	—Unverified
Text Descriptions are Compressive and Invariant Representations for Visual Learning	Jul 10, 2023	DescriptiveFew-Shot Learning	—Unverified
Enhancing Biomedical Text Summarization and Question-Answering: On the Utility of Domain-Specific Pre-Training	Jul 10, 2023	Language ModelingLanguage Modelling	—Unverified
FILM: How can Few-Shot Image Classification Benefit from Pre-Trained Language Models?	Jul 9, 2023	Contrastive LearningFew-Shot Image Classification	—Unverified
Assessing the efficacy of large language models in generating accurate teacher responses	Jul 9, 2023	BenchmarkingIn-Context Learning	—Unverified
Natural Language Instructions for Intuitive Human Interaction with Robotic Assistants in Field Construction Work	Jul 9, 2023	Language ModellingNatural Language Understanding	—Unverified
On decoder-only architecture for speech-to-text and large language model integration	Jul 8, 2023	DecoderLanguage Modeling	—Unverified
Can LLMs be Good Financial Advisors?: An Initial Study in Personal Decision Making for Optimized Outcomes	Jul 8, 2023	Decision MakingLanguage Modeling	—Unverified
Bidirectional Attention as a Mixture of Continuous Word Experts	Jul 8, 2023	Language ModellingMixture-of-Experts	CodeCode Available
A Side-by-side Comparison of Transformers for English Implicit Discourse Relation Classification	Jul 7, 2023	Discourse ParsingImplicit Discourse Relation Classification	—Unverified
Procedurally generating rules to adapt difficulty for narrative puzzle games	Jul 7, 2023	Language ModelingLanguage Modelling	—Unverified
Masked Latent Semantic Modeling: an Efficient Pre-training Alternative to Masked Language Modeling	Jul 7, 2023	Language ModelingLanguage Modelling	CodeCode Available
S2vNTM: Semi-supervised vMF Neural Topic Modeling	Jul 6, 2023	Language ModelingLanguage Modelling	—Unverified
RecallM: An Adaptable Memory Mechanism with Temporal Understanding for Large Language Models	Jul 6, 2023	Continual LearningIn-Context Learning	CodeCode Available
Large Language Models Empowered Autonomous Edge AI for Connected Intelligence	Jul 6, 2023	Code GenerationFederated Learning	—Unverified
Agentività e telicità in GilBERTo: implicazioni cognitive	Jul 6, 2023	Language ModelingLanguage Modelling	—Unverified
Can ChatGPT's Responses Boost Traditional Natural Language Processing?	Jul 6, 2023	Language ModelingLanguage Modelling	CodeCode Available
UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive signals and human language	Jul 6, 2023	Brain Computer InterfaceBrain Decoding	—Unverified

Show:10 25 50

← PrevPage 221 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified