Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12801–12850 of 17610 papers

Title	Date	Tasks	Status
Deep Neural Representations for Multiword Expressions Detection	May 1, 2022	Language ModellingNatural Language Inference	CodeCode Available
EICO: Improving Few-Shot Text Classification via Explicit and Implicit Consistency Regularization	May 1, 2022	Few-Shot LearningFew-Shot Text Classification	—Unverified
Domain-specific knowledge distillation yields smaller and better models for conversational commerce	May 1, 2022	Knowledge DistillationLanguage Modeling	—Unverified
Composing Structure-Aware Batches for Pairwise Sentence Classification	May 1, 2022	ClassificationLanguage Modeling	CodeCode Available
AlephBERT: Language Model Pre-training and Evaluation from Sub-Word to Sentence Level	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
“Is Whole Word Masking Always Better for Chinese BERT?”: Probing on Chinese Grammatical Error Correction	May 1, 2022	Grammatical Error CorrectionLanguage Modeling	—Unverified
Answer-level Calibration for Free-form Multiple Choice Question Answering	May 1, 2022	FormLanguage Modeling	CodeCode Available
A Knowledge storage and semantic space alignment Method for Multi-documents dialogue generation	May 1, 2022	ArticlesDialogue Generation	—Unverified
Continuing Pre-trained Model with Multiple Training Strategies for Emotional Classification	May 1, 2022	AttributeClassification	—Unverified
CueBot: Cue-Controlled Response Generation for Assistive Interaction Usages	May 1, 2022	Language ModellingResponse Generation	—Unverified
Controlled Text Generation Using Dictionary Prior in Variational Autoencoders	May 1, 2022	Contrastive LearningLanguage Modeling	—Unverified
Adaptive Differential Privacy for Language Model Training	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Cross-Lingual UMLS Named Entity Linking using UMLS Dictionary Fine-Tuning	May 1, 2022	Entity LinkingLanguage Modeling	CodeCode Available
Combining Extraction and Generation for Constructing Belief-Consequence Causal Links	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Graph-combined Coreference Resolution Methods on Conversational Machine Reading Comprehension with Pre-trained Language Model	May 1, 2022	coreference-resolutionCoreference Resolution	—Unverified
Cue-bot: A Conversational Agent for Assistive Technology	May 1, 2022	Language Modelling	—Unverified
Extracting Person Names from User Generated Text: Named-Entity Recognition for Combating Human Trafficking	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
ANNA”:" Enhanced Language Representation for Question Answering	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
DS-TOD: Efficient Domain Specialization for Task-Oriented Dialog	May 1, 2022	dialog state trackingLanguage Modeling	CodeCode Available
Debiasing Pre-Trained Language Models via Efficient Fine-Tuning	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
ChipSong: A Controllable Lyric Generation System for Chinese Popular Song	May 1, 2022	Language ModellingSentence	CodeCode Available
Cross-Modal Cloze Task: A New Task to Brain-to-Word Decoding	May 1, 2022	Binary ClassificationDecoder	CodeCode Available
Improving Controllable Text Generation with Position-Aware Weighted Decoding	May 1, 2022	AttributeLanguage Modeling	—Unverified
Dataset Debt in Biomedical Language Modeling	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Exploiting Language Model Prompts Using Similarity Measures: A Case Study on the Word-in-Context Task	May 1, 2022	Few-Shot LearningIn-Context Learning	—Unverified
Challenges in including extra-linguistic context in pre-trained language models	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Fire Burns, Sword Cuts: Commonsense Inductive Bias for Exploration in Text-based Games	May 1, 2022	Deep Reinforcement LearningEfficient Exploration	CodeCode Available
Domain Knowledge Transferring for Pre-trained Language Model via Calibrated Activation Boundary Distillation	May 1, 2022	Knowledge DistillationLanguage Modeling	CodeCode Available
A Holistic Assessment of the Carbon Footprint of Noor, a Very Large Arabic Language Model	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
What Works and Doesn’t Work, A Deep Decoder for Neural Machine Translation	May 1, 2022	DecoderLanguage Modelling	—Unverified
Using Cross-Lingual Part of Speech Tagging for Partially Reconstructing the Classic Language Family Tree Model	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Using ASR-Generated Text for Spoken Language Modeling	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
You reap what you sow: On the Challenges of Bias Evaluation Under Multilingual Settings	May 1, 2022	FairnessLanguage Modeling	—Unverified
Using neural topic models to track context shifts of words: a case study of COVID-related terms before and after the lockdown in April 2020	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Phone-ing it in: Towards Flexible Multi-Modal Language Model Training by Phonetic Representations of Data	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Multi-Granularity Structural Knowledge Distillation for Language Model Compression	May 1, 2022	Knowledge DistillationLanguage Modeling	CodeCode Available
Syntax-guided Contrastive Learning for Pre-trained Language Model	May 1, 2022	Contrastive LearningGrammatical Error Detection	—Unverified
KIQA: Knowledge-Infused Question Answering Model for Financial Table-Text Data	May 1, 2022	Entity LinkingEntity Retrieval	—Unverified
The Xiaomi Text-to-Text Simultaneous Speech Translation System for IWSLT 2022	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Stylistic Response Generation by Controlling Personality Traits and Intent	May 1, 2022	Language ModellingResponse Generation	CodeCode Available
Phrase-aware Unsupervised Constituency Parsing	May 1, 2022	Constituency ParsingLanguage Modeling	—Unverified
SSN_ARMM@ LT-EDI -ACL2022: Hope Speech Detection for Equality, Diversity, and Inclusion Using ALBERT model	May 1, 2022	DiversityHope Speech Detection	—Unverified
Tagging Without Rewriting: A Probabilistic Model for Unpaired Sentiment and Style Transfer	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
The Best of both Worlds: Dual Channel Language modeling for Hope Speech Detection in low-resourced Kannada	May 1, 2022	Cross-Lingual TransferHope Speech Detection	—Unverified
Understanding BERT’s Mood: The Role of Contextual-Embeddings as User-Representations for Depression Assessment	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Query Generation with External Knowledge for Dense Retrieval	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Large-Scale Multi-Document Summarization with Information Extraction and Compression	May 1, 2022	Abstractive Text SummarizationDocument Summarization	—Unverified
MR-P: A Parallel Decoding Algorithm for Iterative Refinement Non-Autoregressive Translation	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
Language Models as Context-sensitive Word Search Engines	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 257 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified