Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1100 of 17610 papers

Title	Date	Tasks	Status	Hype
Mixture of Tokens: Continuous MoE through Cross-Example Aggregation	Oct 24, 2023	Language ModellingLarge Language Model	CodeCode Available	2
DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning	Oct 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain	Oct 22, 2023	Dialogue GenerationDialogue Understanding	CodeCode Available	2
Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture	Oct 18, 2023	4kimage-classification	CodeCode Available	2
Position Interpolation Improves ALiBi Extrapolation	Oct 18, 2023	Language ModellingPosition	CodeCode Available	2
BitNet: Scaling 1-bit Transformers for Large Language Models	Oct 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
LLark: A Multimodal Instruction-Following Language Model for Music	Oct 11, 2023	Instruction FollowingLanguage Modeling	CodeCode Available	2
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning	Oct 10, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Making Large Language Models Perform Better in Knowledge Graph Completion	Oct 10, 2023	In-Context LearningKnowledge Graph Completion	CodeCode Available	2
OptiMUS: Optimization Modeling Using MIP Solvers and large language models	Oct 9, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT	Oct 7, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	2
GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction	Oct 5, 2023	Event Argument ExtractionEvent Extraction	CodeCode Available	2
Ring Attention with Blockwise Transformers for Near-Infinite Context	Oct 3, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Controlling Vision-Language Models for Multi-Task Image Restoration	Oct 2, 2023	Image DehazingImage Denoising	CodeCode Available	2
GPT-Driver: Learning to Drive with GPT	Oct 2, 2023	Autonomous DrivingAutonomous Vehicles	CodeCode Available	2
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists	Sep 30, 2023	Depth EstimationImage Generation	CodeCode Available	2
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training	Sep 29, 2023	Decision MakingLanguage Modeling	CodeCode Available	2
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets	Sep 29, 2023	Language ModellingMathematical Reasoning	CodeCode Available	2
RLLTE: Long-Term Evolution Project of Reinforcement Learning	Sep 28, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Effective Long-Context Scaling of Foundation Models	Sep 27, 2023	Continual PretrainingLanguage Modeling	CodeCode Available	2
AnglE-optimized Text Embeddings	Sep 22, 2023	Language ModellingLarge Language Model	CodeCode Available	2
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent	Sep 21, 2023	3D visual groundingLanguage Modeling	CodeCode Available	2
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models	Sep 21, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services	Sep 20, 2023	Language ModellingLarge Language Model	CodeCode Available	2
StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding	Sep 20, 2023	Chart Question AnsweringChart Understanding	CodeCode Available	2
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models	Sep 20, 2023	Language ModellingMachine Translation	CodeCode Available	2
OWL: A Large Language Model for IT Operations	Sep 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding	Sep 15, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning	Sep 14, 2023	HallucinationIn-Context Learning	CodeCode Available	2
Unified Human-Scene Interaction via Prompted Chain-of-Contacts	Sep 14, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Kani: A Lightweight and Highly Hackable Framework for Building Language Model Applications	Sep 11, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization	Sep 9, 2023	Language ModellingLarge Language Model	CodeCode Available	2
Automated Bioinformatics Analysis via AutoBA	Sep 6, 2023	AI AgentLanguage Modeling	CodeCode Available	2
GPT Can Solve Mathematical Problems Without a Calculator	Sep 6, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning	Sep 5, 2023	DecoderImage Generation	CodeCode Available	2
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following	Sep 1, 2023	3D Generation3D Question Answering (3D-QA)	CodeCode Available	2
SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models	Aug 31, 2023	DecoderLanguage Modeling	CodeCode Available	2
LLaSM: Large Language and Speech Model	Aug 30, 2023	Instruction FollowingLanguage Modeling	CodeCode Available	2
DTrOCR: Decoder-only Transformer for Optical Character Recognition	Aug 30, 2023	DecoderHandwritten Text Recognition	CodeCode Available	2
AutoDroid: LLM-powered Task Automation in Android	Aug 29, 2023	Language Modelling	CodeCode Available	2
SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding	Aug 21, 2023	Entity TypingEvent Extraction	CodeCode Available	2
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes	Aug 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Bayesian Flow Networks	Aug 14, 2023	Bayesian InferenceData Compression	CodeCode Available	2
EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce	Aug 14, 2023	DiversityInstruction Following	CodeCode Available	2
Language is All a Graph Needs	Aug 14, 2023	AllGraph Learning	CodeCode Available	2
SimplyRetrieve: A Private and Lightweight Retrieval-Centric Generative AI Tool	Aug 8, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
AgentSims: An Open-Source Sandbox for Large Language Model Evaluation	Aug 8, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	2
Shepherd: A Critic for Language Model Generation	Aug 8, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue	Aug 7, 2023	Instruction FollowingLanguage Modeling	CodeCode Available	2
Spanish Pre-trained BERT Model and Evaluation Data	Aug 6, 2023	Language ModelingLanguage Modelling	CodeCode Available	2

Show:10 25 50

← PrevPage 22 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified