Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6101–6150 of 17610 papers

Title	Date	Tasks	Status
Applying GPGPU to Recurrent Neural Network Language Model based Fast Network Search in the Real-Time LVCSR	Jul 23, 2020	Language ModelingLanguage Modelling	—Unverified
Applying Pairwise Ranked Optimisation to Improve the Interpolation of Translation Models	Jun 1, 2013	Domain AdaptationLanguage Modelling	—Unverified
Applying Refusal-Vector Ablation to Llama 3.1 70B Agents	Oct 8, 2024	Language ModelingLanguage Modelling	—Unverified
Applying Sanskrit Concepts for Reordering in MT	Dec 1, 2015	Language ModellingMachine Translation	—Unverified
Applying SoftTriple Loss for Supervised Language Model Fine Tuning	Dec 15, 2021	General KnowledgeLanguage Modeling	—Unverified
Applying SoftTriple Loss for Supervised Language Model Fine Tuning	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified
Applying Statistical Post-Editing to English-to-Korean Rule-based Machine Translation System	Nov 1, 2012	Language ModellingMachine Translation	—Unverified
Applying wav2vec2 for Speech Recognition on Bengali Common Voices Dataset	Sep 11, 2022	Language ModelingLanguage Modelling	—Unverified
Approaches to Improving Recognition of Underrepresented Named Entities in Hybrid ASR Systems	May 18, 2020	Language ModelingLanguage Modelling	—Unverified
Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment	Nov 14, 2024	BIRLImitation Learning	—Unverified
Approximate Sentence Retrieval for Scalable and Efficient Example-Based Machine Translation	Dec 1, 2012	Information RetrievalLanguage Modelling	—Unverified
Approximating mutual information of high-dimensional variables using learned representations	Sep 3, 2024	Language ModellingProtein Language Model	—Unverified
AppVLM: A Lightweight Vision Language Model for Online App Control	Feb 10, 2025	Language ModelingLanguage Modelling	—Unverified
A Practical Examination of AI-Generated Text Detectors for Large Language Models	Dec 6, 2024	Language ModelingLanguage Modelling	—Unverified
A practical framework for multi-domain speech recognition and an instance sampling method to neural language modeling	Mar 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A practical perspective on connective generation	Nov 1, 2021	Language ModelingLanguage Modelling	—Unverified
A Predictive Model of Digital Information Engagement: Forecasting User Engagement With English Words by Incorporating Cognitive Biases, Computational Linguistics and Natural Language Processing	Jul 26, 2023	Language ModelingLanguage Modelling	—Unverified
A Pre-training Strategy for Zero-Resource Response Selection in Knowledge-Grounded Conversations	Aug 1, 2021	Language ModellingRetrieval	—Unverified
A Primer on Contrastive Pretraining in Language Processing: Methods, Lessons Learned and Perspectives	Feb 25, 2021	Contrastive LearningLanguage Modeling	—Unverified
A Principled Approach to Context-Aware Machine Translation	Apr 1, 2014	Language ModellingMachine Translation	—Unverified
A Principled Framework for Knowledge-enhanced Large Language Model	Nov 18, 2023	Language ModelingLanguage Modelling	—Unverified
A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene	Apr 17, 2024	image-classificationImage Classification	—Unverified
A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer	Dec 15, 2024	Feature EngineeringLanguage Modeling	—Unverified
A Prompt Engineering Approach and a Knowledge Graph based Framework for Tackling Legal Implications of Large Language Model Answers	Oct 19, 2024	Language ModelingLanguage Modelling	—Unverified
A Prompt Refinement-based Large Language Model for Metro Passenger Flow Forecasting under Delay Conditions	Oct 19, 2024	DescriptiveFew-Shot Learning	—Unverified
A Proposal of Automatic Error Correction in Text	Sep 24, 2021	Information RetrievalLanguage Modelling	—Unverified
A Proposed Large Language Model-Based Smart Search for Archive System	Jan 13, 2025	Information RetrievalLanguage Modeling	—Unverified
A Proposition-Based Abstractive Summariser	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified
A Protein Structure Prediction Approach Leveraging Transformer and CNN Integration	Feb 29, 2024	Language ModelingLanguage Modelling	—Unverified
A Provably Correct Learning Algorithm for Latent-Variable PCFGs	Jun 1, 2014	Language ModellingTopic Models	—Unverified
Aptly: Making Mobile Apps from Natural Language	Apr 30, 2024	Code GenerationLanguage Modeling	—Unverified
A Quantitative Analysis of Comparison of Emoji Sentiment: Taiwan Mandarin Users and English Users	Nov 1, 2022	Language ModelingLanguage Modelling	—Unverified
A Quantitative Review on Language Model Efficiency Research	May 28, 2023	Language ModelingLanguage Modelling	—Unverified
Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension	Nov 9, 2024	Image ComprehensionLanguage Modeling	—Unverified
Aquila-plus: Prompt-Driven Visual-Language Models for Pixel-Level Remote Sensing Image Understanding	Nov 9, 2024	Language ModelingLanguage Modelling	—Unverified
ArabianGPT: Native Arabic GPT-based Large Language Model	Feb 23, 2024	Language ModelingLanguage Modelling	—Unverified
Arabic Compact Language Modelling for Resource Limited Devices	Apr 1, 2021	Language ModelingLanguage Modelling	—Unverified
Arabic Diacritization with Recurrent Neural Networks	Sep 1, 2015	Language ModellingMorphological Analysis	—Unverified
Arabic Dialect Identification for Travel and Twitter Text	Aug 1, 2019	BIG-bench Machine LearningDialect Identification	—Unverified
Arabic Word Generation and Modelling for Spell Checking	May 1, 2012	Language ModelingLanguage Modelling	—Unverified
Arabizi Detection and Conversion to Arabic	Jun 28, 2013	Language ModelingLanguage Modelling	—Unverified
Arabizi Language Models for Sentiment Analysis	Dec 1, 2020	Language ModelingLanguage Modelling	—Unverified
AraLegal-BERT: A pretrained language model for Arabic Legal text	Oct 15, 2022	JurisprudenceLanguage Modeling	—Unverified
A random forest system combination approach for error detection in digital dictionaries	Oct 30, 2014	Language ModelingLanguage Modelling	—Unverified
A Random Gossip BMUF Process for Neural Language Modeling	Sep 19, 2019	GPULanguage Modeling	—Unverified
AraPoemBERT: A Pretrained Language Model for Arabic Poetry Analysis	Mar 19, 2024	Gender ClassificationLanguage Modeling	—Unverified
ArbDialectID at MADAR Shared Task 1: Language Modelling and Ensemble Learning for Fine Grained Arabic Dialect Identification	Aug 1, 2019	Dialect IdentificationEnsemble Learning	—Unverified
ARChef: An iOS-Based Augmented Reality Cooking Assistant Powered by Multimodal Gemini LLM	Dec 1, 2024	Language ModelingLanguage Modelling	—Unverified
Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting	Nov 14, 2024	Depth EstimationImage Inpainting	—Unverified
Architectural Complexity Measures of Recurrent Neural Networks	Feb 26, 2016	Language Modelling	—Unverified

Show:10 25 50

← PrevPage 123 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified