Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7201–7250 of 17610 papers

Title	Date	Tasks	Status	Hype
Embedding Attack Project (Work Report)	Jan 24, 2024	Language Modelling	—Unverified	0
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion	Jan 24, 2024	Conditional Image GenerationDenoising	—Unverified	0
Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable?	Jan 24, 2024	Interpretable Machine LearningLanguage Modelling	CodeCode Available	0
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data	Jan 24, 2024	Language ModelingLanguage Modelling	—Unverified	0
Towards Explainable Harmful Meme Detection through Multimodal Debate between Large Language Models	Jan 24, 2024	Hateful Meme ClassificationLanguage Modelling	CodeCode Available	1
MLLMReID: Multimodal Large Language Model-based Person Re-identification	Jan 24, 2024	Language ModelingLanguage Modelling	—Unverified	0
How AI Ideas Affect the Creativity, Diversity, and Evolution of Human Ideas: Evidence From a Large, Dynamic Experiment	Jan 24, 2024	DiversityLanguage Modelling	—Unverified	0
LPNL: Scalable Link Prediction with Large Language Models	Jan 24, 2024	Graph LearningLanguage Modelling	—Unverified	0
How well can a large language model explain business processes as perceived by users?	Jan 23, 2024	HallucinationLanguage Modeling	CodeCode Available	1
Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study	Jan 23, 2024	Language ModelingLanguage Modelling	—Unverified	0
Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection	Jan 23, 2024	Action RecognitionLanguage Modeling	—Unverified	0
Knowledge Distillation from Language-Oriented to Emergent Communication for Multi-Agent Remote Control	Jan 23, 2024	Deep Reinforcement LearningKnowledge Distillation	—Unverified	0
Self-Supervised Vision Transformers Are Efficient Segmentation Learners for Imperfect Labels	Jan 23, 2024	Language ModelingLanguage Modelling	—Unverified	0
Generating Zero-shot Abstractive Explanations for Rumour Verification	Jan 23, 2024	Few-Shot LearningInformativeness	CodeCode Available	0
Comparing Pre-trained Human Language Models: Is it Better with Human Context as Groups, Individual Traits, or Both?	Jan 23, 2024	Age EstimationLanguage Modeling	—Unverified	0
Assessing and Understanding Creativity in Large Language Models	Jan 23, 2024	Language ModellingLarge Language Model	—Unverified	0
Eloquent: A More Robust Transmission Scheme for LLM Token Streaming	Jan 23, 2024	ChatbotLanguage Modelling	—Unverified	0
ChatGraph: Chat with Your Graphs	Jan 23, 2024	Language ModelingLanguage Modelling	—Unverified	0
LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations	Jan 23, 2024	counterfactualFact Checking	CodeCode Available	1
Can Large Language Models Write Parallel Code?	Jan 23, 2024	Code CompletionCode Generation	CodeCode Available	1
In-Context Language Learning: Architectures and Algorithms	Jan 23, 2024	In-Context LearningLanguage Modeling	CodeCode Available	2
DsDm: Model-Aware Dataset Selection with Datamodels	Jan 23, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
XAI for All: Can Large Language Models Simplify Explainable AI?	Jan 23, 2024	AllDecision Making	—Unverified	0
Small Language Model Meets with Reinforced Vision Vocabulary	Jan 23, 2024	Language ModelingLanguage Modelling	—Unverified	0
CoAVT: A Cognition-Inspired Unified Audio-Visual-Text Pre-Training Model for Multimodal Processing	Jan 22, 2024	AudioCapsAudio-Visual Synchronization	—Unverified	0
Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers	Jan 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning	Jan 22, 2024	Contrastive LearningLanguage Modeling	—Unverified	0
West-of-N: Synthetic Preferences for Self-Improving Reward Models	Jan 22, 2024	Language ModelingLanguage Modelling	—Unverified	0
A Vision-Language Foundation Model to Enhance Efficiency of Chest X-ray Interpretation	Jan 22, 2024	BenchmarkingDiagnostic	CodeCode Available	3
Large Language Model based Multi-Agents: A Survey of Progress and Challenges	Jan 21, 2024	Decision MakingLanguage Modeling	CodeCode Available	5
Training microrobots to swim by a large language model	Jan 21, 2024	Decision MakingFew-Shot Learning	—Unverified	0
Majority or Minority: Data Imbalance Learning Method for Named Entity Recognition	Jan 21, 2024	Language ModellingMachine Reading Comprehension	—Unverified	0
LLMRA: Multi-modal Large Language Model based Restoration Assistant	Jan 21, 2024	Image RestorationLanguage Modeling	—Unverified	0
Finding a Needle in the Adversarial Haystack: A Targeted Paraphrasing Approach For Uncovering Edge Cases with Minimal Distribution Distortion	Jan 21, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Using Large Language Model for End-to-End Chinese ASR and NER	Jan 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation	Jan 21, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
AttentionLego: An Open-Source Building Block For Spatially-Scalable Large Language Model Accelerator With Processing-In-Memory Technology	Jan 21, 2024	Language ModelingLanguage Modelling	—Unverified	0
MolTailor: Tailoring Chemical Molecular Representation to Specific Tasks via Text Prompts	Jan 21, 2024	Drug DiscoveryLanguage Modeling	CodeCode Available	1
Integration of Large Language Models in Control of EHD Pumps for Precise Color Synthesis	Jan 21, 2024	Language ModelingLanguage Modelling	—Unverified	0
Embedding Ontologies via Incorporating Extensional and Intensional Knowledge	Jan 20, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion	Jan 19, 2024	Knowledge Graph CompletionLanguage Modelling	CodeCode Available	0
The Radiation Oncology NLP Database	Jan 19, 2024	Language ModellingLarge Language Model	CodeCode Available	1
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion	Jan 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
Critical Data Size of Language Models from a Grokking Perspective	Jan 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
Using LLMs to discover emerging coded antisemitic hate-speech in extremist social media	Jan 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning	Jan 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial Analysis	Jan 19, 2024	Financial AnalysisLanguage Modelling	—Unverified	0
Accelerating Multilingual Language Model for Excessively Tokenized Languages	Jan 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences	Jan 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually	Jan 19, 2024	counterfactualCounterfactual Explanation	CodeCode Available	0

Show:10 25 50

← PrevPage 145 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified