Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9401–9450 of 17610 papers

Title	Date	Tasks	Status	Hype
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models	Jun 23, 2023	ChatbotLanguage Modeling	CodeCode Available	1
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models	Jun 23, 2023	BenchmarkingLanguage Modeling	CodeCode Available	2
System-Level Natural Language Feedback	Jun 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval	Jun 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Knowledge-Infused Self Attention Transformers	Jun 23, 2023	Knowledge GraphsLanguage Modelling	—Unverified	0
Beyond Chemical Language: A Multimodal Approach to Enhance Molecular Property Prediction	Jun 22, 2023	feature selectionLanguage Modeling	—Unverified	0
Apolitical Intelligence? Auditing Delphi's responses on controversial political issues in the US	Jun 22, 2023	EthicsLanguage Modeling	—Unverified	0
Identifying and Extracting Rare Disease Phenotypes with Large Language Models	Jun 22, 2023	Language ModellingLarge Language Model	CodeCode Available	0
Implicit spoken language diarization	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
Generative Multimodal Entity Linking	Jun 22, 2023	Entity LinkingIn-Context Learning	CodeCode Available	1
AudioPaLM: A Large Language Model That Can Speak and Listen	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
Public Attitudes Toward ChatGPT on Twitter: Sentiments, Topics, and Occupations	Jun 22, 2023	ChatbotLanguage Modelling	CodeCode Available	0
Mapping and Cleaning Open Commonsense Knowledge Bases with Generative Translation	Jun 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Mass-Producing Failures of Multimodal Systems with Language Models	Jun 21, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair	Jun 21, 2023	Code RepairFew-Shot Learning	—Unverified	0
A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant based on Instructions and Dialogue	Jun 21, 2023	Instruction FollowingLanguage Modeling	CodeCode Available	1
Opening the Black Box: Analyzing Attention Weights and Hidden States in Pre-trained Language Models for Non-language Tasks	Jun 21, 2023	Language ModellingListOps	CodeCode Available	0
Iterated Piecewise Affine (IPA) Approximation for Language Modeling	Jun 21, 2023	DecoderLanguage Modeling	—Unverified	0
Solving Dialogue Grounding Embodied Task in a Simulated Environment using Further Masked Language Modeling	Jun 21, 2023	Language ModelingLanguage Modelling	—Unverified	0
Exploring New Frontiers in Agricultural NLP: Investigating the Potential of Large Language Models for Food Applications	Jun 20, 2023	Language ModellingNutrition	—Unverified	0
A Novel Counterfactual Data Augmentation Method for Aspect-Based Sentiment Analysis	Jun 20, 2023	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified	0
No Wrong Turns: The Simple Geometry Of Neural Networks Optimization Paths	Jun 20, 2023	image-classificationImage Classification	CodeCode Available	0
Lingua Manga: A Generic Large Language Model Centric System for Data Curation	Jun 20, 2023	DiversityLanguage Modeling	—Unverified	0
Learning Profitable NFT Image Diffusions via Multiple Visual-Policy Guided Reinforcement Learning	Jun 20, 2023	AttributeImage Generation	—Unverified	0
Textbooks Are All You Need	Jun 20, 2023	AllCode Generation	—Unverified	0
RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing	Jun 20, 2023	Cross-Modal RetrievalImage Retrieval	CodeCode Available	2
Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling	Jun 20, 2023	Knowledge GraphsLanguage Modeling	—Unverified	0
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion	Jun 20, 2023	Image CaptioningLanguage Modelling	—Unverified	0
Sparse Modular Activation for Efficient Sequence Modeling	Jun 19, 2023	ChunkingLanguage Modeling	CodeCode Available	1
SynerGPT: In-Context Learning for Personalized Drug Synergy Prediction and Drug Design	Jun 19, 2023	Drug DesignIn-Context Learning	—Unverified	0
Multilingual Few-Shot Learning via Language Model Retrieval	Jun 19, 2023	Few-Shot LearningIn-Context Learning	—Unverified	0
A Preliminary Study of ChatGPT on News Recommendation: Personalization, Provider Fairness, Fake News	Jun 19, 2023	ArticlesFairness	CodeCode Available	0
JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for Multi-task Mathematical Problem Solving	Jun 19, 2023	In-Context LearningLanguage Modeling	—Unverified	0
LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models	Jun 18, 2023	Audio GenerationDisentanglement	—Unverified	0
Evolutionary Verbalizer Search for Prompt-based Few Shot Text Classification	Jun 18, 2023	Few-Shot Text ClassificationLanguage Modeling	CodeCode Available	0
Generation of Radiology Findings in Chest X-Ray by Leveraging Collaborative Knowledge	Jun 18, 2023	Image CaptioningLanguage Modelling	—Unverified	0
FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue	Jun 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Bloated Disclosures: Can ChatGPT Help Investors Process Information?	Jun 17, 2023	Language Modelling	—Unverified	0
KEST: Kernel Distance Based Efficient Self-Training for Improving Controllable Text Generation	Jun 17, 2023	DiversityLanguage Modeling	CodeCode Available	0
LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning	Jun 17, 2023	Boundary CaptioningLanguage Modeling	CodeCode Available	1
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation	Jun 17, 2023	Decision MakingInstruction Following	—Unverified	0
Scaling Open-Vocabulary Object Detection	Jun 16, 2023	image-classificationImage Classification	CodeCode Available	0
Investigating Masking-based Data Generation in Language Models	Jun 16, 2023	Data AugmentationLanguage Modeling	—Unverified	0
Clickbait Classification and Spoiling Using Natural Language Processing	Jun 16, 2023	ArticlesClassification	—Unverified	0
Data Selection for Fine-tuning Large Language Models Using Transferred Shapley Values	Jun 16, 2023	Data ValuationLanguage Modeling	CodeCode Available	0
Conformal Language Modeling	Jun 16, 2023	Conformal PredictionLanguage Modeling	CodeCode Available	1
ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data and Comprehensive Evaluation	Jun 16, 2023	DiagnosticLanguage Modeling	—Unverified	0
FALL-E: A Foley Sound Synthesis Model and Strategies	Jun 16, 2023	DiversityLanguage Modeling	CodeCode Available	1

Show:10 25 50

← PrevPage 189 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified