Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6851–6900 of 17610 papers

Title	Date	Tasks	Status
Bridging the Gap: Deciphering Tabular Data Using Large Language Model	Aug 23, 2023	Language ModelingLanguage Modelling	—Unverified
Bridging the Gap: Transfer Learning from English PLMs to Malaysian English	Jul 1, 2024	Language Modellingnamed-entity-recognition	—Unverified
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives	Dec 14, 2024	DescriptiveLanguage Modeling	—Unverified
Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation	Feb 21, 2025	BenchmarkingLanguage Modeling	—Unverified
BriLLM: Brain-inspired Large Language Model	Mar 14, 2025	Language ModelingLanguage Modelling	—Unverified
Bringing legal knowledge to the public by constructing a legal question bank using large-scale pre-trained language model	May 7, 2025	Language ModelingLanguage Modelling	—Unverified
Bringing Structure to Naturalness: On the Naturalness of ASTs	Apr 11, 2025	Feature EngineeringLanguage Modelling	—Unverified
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method	Mar 11, 2025	Language ModelingLanguage Modelling	—Unverified
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning	Jan 31, 2025	Language ModelingLanguage Modelling	—Unverified
Broad Context Language Modeling as Reading Comprehension	Oct 26, 2016	coreference-resolutionCoreference Resolution	—Unverified
Broadening Discovery through Structural Models: Multimodal Combination of Local and Structural Properties for Predicting Chemical Features	Feb 25, 2025	Language ModelingLanguage Modelling	—Unverified
BROS: A Pre-trained Language Model for Understanding Texts in Document	Jan 1, 2021	DecoderDiversity	—Unverified
Brown University at TREC Deep Learning 2019	Sep 8, 2020	Deep LearningInformation Retrieval	—Unverified
bs,hr,srWaC - Web Corpora of Bosnian, Croatian and Serbian	Apr 1, 2014	Language IdentificationLanguage Modelling	—Unverified
BUCC 2017 Shared Task: a First Attempt Toward a Deep Learning Framework for Identifying Parallel Sentences in Comparable Corpora	Aug 1, 2017	Feature EngineeringLanguage Modeling	—Unverified
BuDDIE: A Business Document Dataset for Multi-task Information Extraction	Apr 5, 2024	Document Classificationdocument understanding	—Unverified
BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model From Scratch?	Nov 30, 2022	Language ModelingLanguage Modelling	—Unverified
BugWhisperer: Fine-Tuning LLMs for SoC Hardware Vulnerability Detection	May 28, 2025	Language ModelingLanguage Modelling	—Unverified
Buhscitu at SemEval-2020 Task 7: Assessing Humour in Edited News Headlines Using Hand-Crafted Features and Online Knowledge Bases	Dec 1, 2020	Language ModelingLanguage Modelling	—Unverified
Building a Functional Machine Translation Corpus for Kpelle	May 24, 2025	Data AugmentationLanguage Modelling	—Unverified
Building a Lemmatizer and a Spell-checker for Sorani Kurdish	Sep 27, 2018	Language ModelingLanguage Modelling	—Unverified
Building and Evaluating Somali Language Corpora	Jun 1, 2014	Language Modelling	—Unverified
Building and Modelling Multilingual Subjective Corpora	May 1, 2014	Language ModellingMachine Translation	—Unverified
Building astroBERT, a language model for Astronomy & Astrophysics	Dec 1, 2021	AstronomyLanguage Modeling	—Unverified
Building bilingual lexicon to create Dialect Tunisian corpora and adapt language model	Aug 1, 2013	Language ModelingLanguage Modelling	—Unverified
Building competitive direct acoustics-to-word models for English conversational speech recognition	Dec 8, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Building Decision Making Models Through Language Model Regime	Aug 12, 2024	Decision MakingLanguage Modeling	—Unverified
Building English ASR model with regional language support	Mar 10, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Building Flexible Machine Learning Models for Scientific Computing at Scale	Feb 25, 2024	DecoderLanguage Modeling	—Unverified
Building Hierarchically Disentangled Language Models for Text Generation with Named Entities	Dec 1, 2020	Dependency ParsingLanguage Modeling	—Unverified
Building Intelligence Identification System via Large Language Model Watermarking: A Survey and Beyond	Jul 15, 2024	Language ModelingLanguage Modelling	—Unverified
Building Language Models for Morphological Rich Low-Resource Languages using Data from Related Donor Languages: the Case of Uyghur	May 1, 2020	Language ModelingLanguage Modelling	—Unverified
Building Metadata Inference Using a Transducer Based Language Model	Dec 5, 2022	Language ModelingLanguage Modelling	—Unverified
Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation	Dec 12, 2023	Decision MakingLanguage Modelling	—Unverified
Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline	Mar 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Responsible Generative AI: A Reference Architecture for Designing Foundation Model based Agents	Nov 22, 2023	Language ModellingLarge Language Model	—Unverified
Business Process Text Sketch Automation Generation Using Large Language Model	Sep 3, 2023	In-Context LearningLanguage Modeling	—Unverified
ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way	Jul 11, 2025	Depth EstimationHallucination	—Unverified
Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers	Sep 5, 2024	Adversarial DefenseLanguage Modelling	—Unverified
Bypassing LLM Watermarks with Color-Aware Substitutions	Mar 19, 2024	Language ModelingLanguage Modelling	—Unverified
Byte-based Neural Machine Translation	Sep 1, 2017	Language ModelingLanguage Modelling	—Unverified
ByteComposer: a Human-like Melody Composition Method based on Language Model Agent	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified
ByteScience: Bridging Unstructured Scientific Literature and Structured Data with Auto Fine-tuned Large Language Model in Token Granularity	Nov 18, 2024	ArticlesLanguage Modeling	—Unverified
C2ST: Cross-Modal Contextualized Sequence Transduction for Continuous Sign Language Recognition	Jan 1, 2023	Language ModellingRepresentation Learning	—Unverified
C3: Continued Pretraining with Contrastive Weak Supervision for Cross Language Ad-Hoc Retrieval	Apr 25, 2022	ArticlesLanguage Modeling	—Unverified
C3LLM: Conditional Multimodal Content Generation Using Large Language Models	May 25, 2024	Audio GenerationLanguage Modelling	—Unverified
C4Q: A Chatbot for Quantum	Jan 29, 2024	ChatbotLanguage Modeling	—Unverified
Cache-Augmented Latent Topic Language Models for Speech Retrieval	Jun 1, 2015	Language ModellingRetrieval	—Unverified
Cache & Distil: Optimising API Calls to Large Language Models	Oct 20, 2023	Active LearningLanguage Modeling	—Unverified
CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers	Dec 18, 2024	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 138 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified