Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6551–6600 of 17610 papers

Title	Date	Tasks	Status
Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model	Aug 9, 2024	Active LearningInformativeness	—Unverified
A Voter-Based Stochastic Rejection-Method Framework for Asymptotically Safe Language Model Outputs	Jul 24, 2024	Language ModelingLanguage Modelling	—Unverified
AVScan2Vec: Feature Learning on Antivirus Scan Data for Production-Scale Malware Corpora	Jun 9, 2023	Language Modelling	—Unverified
AVSS: Layer Importance Evaluation in Large Language Models via Activation Variance-Sparsity Analysis	Nov 4, 2024	Language ModelingLanguage Modelling	—Unverified
Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination	Sep 11, 2024	Language ModelingLanguage Modelling	—Unverified
A Web-Based Solution for Federated Learning with LLM-Based Automation	Aug 23, 2024	CPUFederated Learning	—Unverified
A Web Service for Pre-segmenting Very Long Transcribed Speech Recordings	May 1, 2018	ChunkingLanguage Modeling	—Unverified
Awes, Laws, and Flaws From Today's LLM Research	Aug 27, 2024	EthicsLanguage Modeling	—Unverified
A Wikipedia-based Corpus for Contextualized Machine Translation	May 1, 2014	ArticlesDomain Adaptation	—Unverified
AWOL: Analysis WithOut synthesis using Language	Apr 3, 2024	Language Modelling	—Unverified
AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language Model Outputs	Mar 1, 2024	FairnessLanguage Modeling	—Unverified
Aya 23: Open Weight Releases to Further Multilingual Progress	May 23, 2024	Language ModelingLanguage Modelling	—Unverified
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model	Feb 12, 2024	Language ModelingLanguage Modelling	—Unverified
A Zero-Shot Classification Approach for a Word-Guessing Challenge	Jun 27, 2022	ClassificationLanguage Modeling	—Unverified
Babler - Data Collection from the Web to Support Speech Recognition and Keyword Search	Aug 1, 2016	Automatic Speech Recognition (ASR)Language Identification	—Unverified
BabyHGRN: Exploring RNNs for Sample-Efficient Training of Language Models	Dec 20, 2024	Knowledge DistillationLanguage Modeling	—Unverified
BabyLM Challenge: Exploring the Effect of Variation Sets on Language Model Training Efficiency	Nov 14, 2024	Language ModelingLanguage Modelling	—Unverified
BabyLMs for isiXhosa: Data-Efficient Language Modelling in a Low-Resource Context	Jan 7, 2025	Language ModellingNER	—Unverified
BabyLM Turns 3: Call for papers for the 2025 BabyLM workshop	Feb 15, 2025	Language ModelingLanguage Modelling	—Unverified
Backdoor Attacks with Input-unique Triggers in NLP	Mar 25, 2023	Backdoor AttackLanguage Modelling	—Unverified
Back from the future: bidirectional CTC decoding using future information in speech recognition	Oct 7, 2021	Language ModelingLanguage Modelling	—Unverified
Backpropamine: training self-modifying neural networks with differentiable neuromodulated plasticity	Feb 24, 2020	Language ModelingLanguage Modelling	—Unverified
Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema	Apr 16, 2021	Artifact DetectionBias Detection	—Unverified
Backtracking Improves Generation Safety	Sep 22, 2024	Language ModelingLanguage Modelling	—Unverified
Back-Translated Task Adaptive Pretraining: Improving Accuracy and Robustness on Text Classification	Jul 22, 2021	Language ModelingLanguage Modelling	—Unverified
Backward and Forward Language Modeling for Constrained Sentence Generation	Dec 21, 2015	Language ModelingLanguage Modelling	—Unverified
Backward Lens: Projecting Language Model Gradients into the Vocabulary Space	Feb 20, 2024	Language ModelingLanguage Modelling	—Unverified
BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT	Feb 21, 2023	Backdoor AttackLanguage Modeling	—Unverified
BadRobot: Jailbreaking Embodied LLMs in the Physical World	Jul 16, 2024	Language ModelingLanguage Modelling	—Unverified
BAGEL: Bootstrapping Agents by Guiding Exploration with Language	Mar 12, 2024	In-Context Learning	—Unverified
Bag of Tricks for Effective Language Model Pretraining and Downstream Adaptation: A Case Study on GLUE	Feb 18, 2023	Contrastive LearningDenoising	—Unverified
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline	Aug 27, 2024	Language ModelingLanguage Modelling	—Unverified
BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference	Feb 18, 2025	GPULanguage Modeling	—Unverified
Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
Balancing Average and Worst-case Accuracy in Multitask Learning	Oct 12, 2021	image-classificationImage Classification	—Unverified
Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks	May 26, 2025	Language ModelingLanguage Modelling	—Unverified
Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability	Apr 22, 2022	image-classificationImage Classification	—Unverified
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction	Sep 2, 2024	Language ModelingLanguage Modelling	—Unverified
Balancing Speech Understanding and Generation Using Continual Pre-training for Codec-based Speech LLM	Feb 24, 2025	Automatic Speech RecognitionLanguage Modeling	—Unverified
BAMBI: Developing Baby Language Models for Italian	Mar 12, 2025	Language AcquisitionLanguage Modeling	—Unverified
BANANA: a Benchmark for the Assessment of Neural Architectures for Nucleic Acids	Sep 29, 2021	Language Modelling	—Unverified
BanglaBERT: Language Model Pretraining and Benchmarks for Low-Resource Language Understanding Evaluation in Bangla	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
BanglaHateBERT: BERT for Abusive Language Detection in Bengali	Jun 1, 2022	Abusive LanguageLanguage Modeling	—Unverified
Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing N-gram Language Models	Sep 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bangla Word Clustering Based on Tri-gram, 4-gram and 5-gram Language Model	Jan 27, 2017	ClusteringLanguage Modeling	—Unverified
BART based semantic correction for Mandarin automatic speech recognition system	Mar 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BART for Post-Correction of OCR Newspaper Text	Nov 1, 2021	Language ModelingLanguage Modelling	—Unverified
BART-light: One Decoder Layer Is Enough	Sep 17, 2021	DecoderLanguage Modeling	—Unverified
BAS: An Answer Selection Method Using BERT Language Model	Nov 4, 2019	Answer SelectionLanguage Modeling	—Unverified
BasedAI: A decentralized P2P network for Zero Knowledge Large Language Models (ZK-LLMs)	Mar 1, 2024	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 132 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified