Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7301–7350 of 17610 papers

Title	Date	Tasks	Status	Hype
Tracing the Genealogies of Ideas with Large Language Model Embeddings	Jan 13, 2024	Abstract Meaning RepresentationLanguage Modeling	—Unverified	0
Graph Language Models	Jan 13, 2024	Knowledge GraphsLanguage Modeling	CodeCode Available	2
xCoT: Cross-lingual Instruction Tuning for Cross-lingual Chain-of-Thought Reasoning	Jan 13, 2024	Few-Shot LearningLanguage Modelling	—Unverified	0
Evolving Code with A Large Language Model	Jan 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
Parameter-Efficient Detoxification with Contrastive Decoding	Jan 13, 2024	AttributeGPU	—Unverified	0
A systematic review of geospatial location embedding approaches in large language models: A path to spatial AI systems	Jan 12, 2024	ArticlesLanguage Modeling	—Unverified	0
InRanker: Distilled Rankers for Zero-shot Information Retrieval	Jan 12, 2024	Information RetrievalLanguage Modeling	CodeCode Available	0
XLS-R Deep Learning Model for Multilingual ASR on Low- Resource Languages: Indonesian, Javanese, and Sundanese	Jan 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-Task Learning for Front-End Text Processing in TTS	Jan 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation	Jan 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
PersianMind: A Cross-Lingual Persian-English Large Language Model	Jan 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model	Jan 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Few-Shot Detection of Machine-Generated Text using Style Representations	Jan 12, 2024	Language Modelling	CodeCode Available	1
ModaVerse: Efficiently Transforming Modalities with LLMs	Jan 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints	Jan 12, 2024	DecoderLanguage Modeling	—Unverified	0
LEGOBench: Scientific Leaderboard Generation Benchmark	Jan 11, 2024	DecoderLanguage Modeling	CodeCode Available	0
How Teachers Can Use Large Language Models and Bloom's Taxonomy to Create Educational Quizzes	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
Combating Adversarial Attacks with Multi-Agent Debate	Jan 11, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Towards Conversational Diagnostic AI	Jan 11, 2024	DiagnosticLanguage Modelling	—Unverified	0
GroundingGPT:Language Enhanced Multi-modal Grounding Model	Jan 11, 2024	Language ModellingLarge Language Model	CodeCode Available	3
Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
EpilepsyLLM: Domain-Specific Large Language Model Fine-tuned with Epilepsy Medical Knowledge	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
Investigating Data Contamination for Pre-training Language Models	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
Distilling Vision-Language Models on Millions of Videos	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein	Jan 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
LinguAlchemy: Fusing Typological and Geographical Elements for Unseen Language Generalization	Jan 11, 2024	intent-classificationIntent Classification	—Unverified	0
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models	Jan 11, 2024	Language ModellingLarge Language Model	CodeCode Available	5
An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue Assistant	Jan 10, 2024	Dialogue GenerationLanguage Modelling	CodeCode Available	0
AugSumm: towards generalizable speech summarization using synthetic labels from large language model	Jan 10, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
ChatGPT, Let us Chat Sign Language: Experiments, Architectural Elements, Challenges and Research Directions	Jan 10, 2024	Language ModelingLanguage Modelling	—Unverified	0
Enhancing Source Code Classification Effectiveness via Prompt Learning Incorporating Knowledge Features	Jan 10, 2024	ClassificationCode Classification	CodeCode Available	0
Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion?	Jan 10, 2024	Language ModellingLarge Language Model	—Unverified	0
Hierarchical Classification of Transversal Skills in Job Ads Based on Sentence Embeddings	Jan 10, 2024	ClassificationLanguage Modeling	—Unverified	0
Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding	Jan 10, 2024	DecoderDiversity	CodeCode Available	0
Knowledge Sharing in Manufacturing using Large Language Models: User Evaluation and Model Benchmarking	Jan 10, 2024	BenchmarkingInformation Retrieval	—Unverified	0
Less is More: A Closer Look at Semantic-based Few-Shot Learning	Jan 10, 2024	Few-Shot LearningLanguage Modeling	—Unverified	0
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search	Jan 9, 2024	Code GenerationCode Search	CodeCode Available	1
Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs	Jan 9, 2024	Language ModellingLarge Language Model	CodeCode Available	0
TwinBooster: Synergising Large Language Models with Barlow Twins and Gradient Boosting for Enhanced Molecular Property Prediction	Jan 9, 2024	Drug DiscoveryLanguage Modeling	CodeCode Available	0
Exploring Prompt-Based Methods for Zero-Shot Hypernym Prediction with Large Language Models	Jan 9, 2024	Language ModelingLanguage Modelling	—Unverified	0
Evaluating Language Model Agency through Negotiations	Jan 9, 2024	Decision MakingLanguage Modeling	CodeCode Available	3
TechGPT-2.0: A large language model project to solve the task of knowledge graph construction	Jan 9, 2024	graph constructionLanguage Modeling	CodeCode Available	2
How predictable is language model benchmark performance?	Jan 9, 2024	Language ModelingLanguage Modelling	—Unverified	0
Language-Conditioned Robotic Manipulation with Fast and Slow Thinking	Jan 8, 2024	Decision MakingIntent Recognition	—Unverified	0
SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems	Jan 8, 2024	Language ModellingLarge Language Model	CodeCode Available	2
IDoFew: Intermediate Training Using Dual-Clustering in Language Models for Few Labels Text Classification	Jan 8, 2024	ClusteringLanguage Modeling	—Unverified	0
FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild	Jan 8, 2024	Language ModellingLarge Language Model	CodeCode Available	0
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning	Jan 8, 2024	BenchmarkingCoLA	—Unverified	0
Sparse Meets Dense: A Hybrid Approach to Enhance Scientific Document Retrieval	Jan 8, 2024	Deep LearningInformation Retrieval	—Unverified	0
Language Models Encode the Value of Numbers Linearly	Jan 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 147 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified