Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8951–9000 of 17610 papers

Title	Date	Tasks	Status	Hype
FonMTL: Towards Multitask Learning for the Fon Language	Aug 28, 2023	Language Modellingnamed-entity-recognition	CodeCode Available	0
FIRE: Food Image to REcipe generation	Aug 28, 2023	DecoderLanguage Modelling	CodeCode Available	0
CoVR-2: Automatic Data Construction for Composed Video Retrieval	Aug 28, 2023	Composed Image Retrieval (CoIR)Composed Video Retrieval (CoVR)	CodeCode Available	1
Reinforcement Learning for Generative AI: A Survey	Aug 28, 2023	Inductive BiasLanguage Modelling	—Unverified	0
RecMind: Large Language Model Powered Agent For Recommendation	Aug 28, 2023	Explanation GenerationLanguage Modeling	—Unverified	0
Detecting Language Model Attacks with Perplexity	Aug 27, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
ZC3: Zero-Shot Cross-Language Code Clone Detection	Aug 26, 2023	Clone DetectionLanguage Modelling	CodeCode Available	1
ORES: Open-vocabulary Responsible Visual Synthesis	Aug 26, 2023	Image GenerationLanguage Modeling	CodeCode Available	1
Solving Math Word Problem with Problem Type Classification	Aug 26, 2023	Answer SelectionClassification	CodeCode Available	0
Planning with Logical Graph-based Language Model for Instruction Generation	Aug 26, 2023	Language ModelingLanguage Modelling	—Unverified	0
ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon Sequential Task Planning	Aug 26, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
1.5 million materials narratives generated by chatbots	Aug 25, 2023	Language ModelingLanguage Modelling	—Unverified	0
An Ensemble Approach to Personalized Real Time Predictive Writing for Experts	Aug 25, 2023	Language ModellingLarge Language Model	—Unverified	0
EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression	Aug 25, 2023	Keyphrase ExtractionLanguage Modeling	—Unverified	0
Decoupled Structure for Improved Adaptability of End-to-End Models	Aug 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity	Aug 25, 2023	DiversityLanguage Modelling	CodeCode Available	0
Prompting Visual-Language Models for Dynamic Facial Expression Recognition	Aug 25, 2023	Dynamic Facial Expression RecognitionFacial Expression Recognition	CodeCode Available	1
Prompting a Large Language Model to Generate Diverse Motivational Messages: A Comparison with Human-Written Messages	Aug 25, 2023	DiversityLanguage Modeling	—Unverified	0
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research	Aug 25, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers	Aug 24, 2023	ArticlesLanguage Modeling	—Unverified	0
Financial News Analytics Using Fine-Tuned Llama 2 GPT Model	Aug 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
Rational Decision-Making Agent with Internalized Utility Judgment	Aug 24, 2023	Decision MakingLanguage Modelling	—Unverified	0
Language as Reality: A Co-Creative Storytelling Game Experience in 1001 Nights using Generative AI	Aug 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	Aug 24, 2023	Chart Question AnsweringFS-MEVQA	CodeCode Available	5
An Information-Theoretic Approach for Detecting Edits in AI-Generated Text	Aug 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
PartSeg: Few-shot Part Segmentation via Part-aware Prompt Learning	Aug 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt interaction tasks	Aug 24, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias	Aug 24, 2023	DiversityLanguage Modeling	CodeCode Available	1
VIGC: Visual Instruction Generation and Correction	Aug 24, 2023	HallucinationImage Captioning	CodeCode Available	1
Evolution of ESG-focused DLT Research: An NLP Analysis of the Literature	Aug 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Dcc --help: Generating Context-Aware Compiler Error Explanations with Large Language Models	Aug 23, 2023	Language ModellingLarge Language Model	CodeCode Available	1
How to Protect Copyright Data in Optimization of Large Language Models?	Aug 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Hybrid Retrieval and Multi-stage Text Ranking Solution at TREC 2022 Deep Learning Track	Aug 23, 2023	Document RankingLanguage Modeling	—Unverified	0
Bridging the Gap: Deciphering Tabular Data Using Large Language Model	Aug 23, 2023	Language ModelingLanguage Modelling	—Unverified	0
Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning	Aug 23, 2023	In-Context LearningLanguage Modeling	CodeCode Available	1
Audio Generation with Multiple Conditional Diffusion Model	Aug 23, 2023	Audio GenerationDiversity	—Unverified	0
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages	Aug 23, 2023	Image GenerationImage to text	CodeCode Available	6
Pre-training with Aspect-Content Text Mutual Prediction for Multi-Aspect Dense Retrieval	Aug 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Towards an On-device Agent for Text Rewriting	Aug 22, 2023	Language Modelling	—Unverified	0
Multi-event Video-Text Retrieval	Aug 22, 2023	Language ModellingRetrieval	CodeCode Available	1
ROSGPT_Vision: Commanding Robots Using Only Language Models' Prompts	Aug 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation	Aug 22, 2023	Data AugmentationLanguage Modelling	CodeCode Available	1
Is There Any Social Principle for LLM-Based Agents?	Aug 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection	Aug 22, 2023	Anomaly DetectionData Augmentation	—Unverified	0
Diversity Measures: Domain-Independent Proxies for Failure in Language Model Queries	Aug 22, 2023	DiversityLanguage Modeling	CodeCode Available	0
Leveraging Language Model Capabilities for Sound Event Detection	Aug 22, 2023	DecoderEvent Detection	—Unverified	0
A Survey on Large Language Model based Autonomous Agents	Aug 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	4
Tryage: Real-time, intelligent Routing of User Prompts to Large Language Models	Aug 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
SpikingBERT: Distilling BERT to Train Spiking Language Models Using Implicit Differentiation	Aug 21, 2023	Knowledge DistillationLanguage Modelling	CodeCode Available	1
PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator	Aug 21, 2023	DiversityLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 180 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified