Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12851–12900 of 17610 papers

Title	Date	Tasks	Status
MTL-SLT: Multi-Task Learning for Spoken Language Tasks	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Similar Users for Personalized Language Modeling with Limited Data	May 1, 2022	Language ModelingLanguage Modelling	—Unverified
To Interpolate or not to Interpolate: PRF, Dense and Sparse Retrievers	Apr 30, 2022	Information RetrievalLanguage Modelling	—Unverified
LayoutBERT: Masked Language Layout Model for Object Insertion	Apr 30, 2022	Language Modellingmodel	—Unverified
Self-Programming Artificial Intelligence Using Code-Generating Language Models	Apr 30, 2022	Code GenerationLanguage Modeling	—Unverified
Visualizing and Explaining Language Models	Apr 30, 2022	Deep LearningLanguage Modeling	—Unverified
Vision-Language Pre-Training for Boosting Scene Text Detectors	Apr 29, 2022	Contrastive LearningLanguage Modeling	CodeCode Available
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining	Apr 29, 2022	Image ClassificationLanguage Modeling	—Unverified
Training Language Models with Language Feedback	Apr 29, 2022	Language ModelingLanguage Modelling	—Unverified
On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model	Apr 28, 2022	Few-Shot LearningIn-Context Learning	—Unverified
UBERT: A Novel Language Model for Synonymy Prediction at Scale in the UMLS Metathesaurus	Apr 27, 2022	Language ModelingLanguage Modelling	CodeCode Available
RigoBERTa: A State-of-the-Art Language Model For Spanish	Apr 27, 2022	Language ModelingLanguage Modelling	—Unverified
Probing Simile Knowledge from Pre-trained Language Models	Apr 27, 2022	DiversityLanguage Modelling	CodeCode Available
A Comprehensive Understanding of Code-mixed Language Semantics using Hierarchical Transformer	Apr 27, 2022	Language ModelingLanguage Modelling	CodeCode Available
Efficient Machine Translation Domain Adaptation	Apr 26, 2022	Domain AdaptationLanguage Modeling	CodeCode Available
You Don't Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers' Private Personas	Apr 26, 2022	Language ModelingLanguage Modelling	CodeCode Available
Parkinson's disease diagnostics using AI and natural language knowledge transfer	Apr 26, 2022	Language ModelingLanguage Modelling	—Unverified
Pretraining Chinese BERT for Detecting Word Insertion and Deletion Errors	Apr 26, 2022	Language ModelingLanguage Modelling	—Unverified
Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce Data Annotation Required in Visual Commonsense Tasks	Apr 25, 2022	Few-Shot LearningIn-Context Learning	—Unverified
ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference	Apr 25, 2022	DecoderInformation Retrieval	—Unverified
Crystal Transformer: Self-learning neural language model for Generative and Tinkering Design of Materials	Apr 25, 2022	Language ModelingLanguage Modelling	—Unverified
C3: Continued Pretraining with Contrastive Weak Supervision for Cross Language Ad-Hoc Retrieval	Apr 25, 2022	ArticlesLanguage Modeling	—Unverified
Unsupervised Representation Learning of Player Behavioral Data with Confidence Guided Masking	Apr 25, 2022	Feature EngineeringLanguage Modeling	CodeCode Available
WaBERT: A Low-resource End-to-end Model for Spoken Language Understanding and Speech-to-BERT Alignment	Apr 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Locally Aggregated Feature Attribution on Natural Language Model Understanding	Apr 22, 2022	Language ModelingLanguage Modelling	—Unverified
Taygete at SemEval-2022 Task 4: RoBERTa based models for detecting Patronising and Condescending Language	Apr 22, 2022	ArticlesLanguage Modeling	—Unverified
Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability	Apr 22, 2022	image-classificationImage Classification	—Unverified
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing	Apr 21, 2022	Contrastive LearningLanguage Modeling	CodeCode Available
On the Representation Collapse of Sparse Mixture of Experts	Apr 20, 2022	ClusteringLanguage Modeling	—Unverified
When Does Syntax Mediate Neural Language Model Performance? Evidence from Dropout Probes	Apr 20, 2022	Language ModelingLanguage Modelling	CodeCode Available
Detecting Unintended Memorization in Language-Model-Fused ASR	Apr 20, 2022	Language ModelingLanguage Modelling	—Unverified
DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks	Apr 19, 2022	DecoderLanguage Modeling	—Unverified
Multilingual Syntax-aware Language Modeling through Dependency Tree Conversion	Apr 19, 2022	Language ModelingLanguage Modelling	—Unverified
UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles for Detecting Patronizing and Condescending Language	Apr 18, 2022	Binary ClassificationData Augmentation	—Unverified
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking	Apr 18, 2022	cross-modal alignmentDocument AI	CodeCode Available
Context-Aware Language Modeling for Goal-Oriented Dialogue Systems	Apr 18, 2022	Goal-Oriented Dialogue SystemsLanguage Modeling	—Unverified
A Study on Prompt-based Few-Shot Learning Methods for Belief State Tracking in Task-oriented Dialog Systems	Apr 18, 2022	Few-Shot LearningLanguage Modelling	—Unverified
Zero-shot Entity and Tweet Characterization with Designed Conditional Prompts and Contexts	Apr 18, 2022	Language ModelingLanguage Modelling	—Unverified
WordAlchemy: A transformer-based Reverse Dictionary	Apr 16, 2022	Language ModelingLanguage Modelling	—Unverified
SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words	Apr 16, 2022	Language ModelingLanguage Modelling	—Unverified
BLCU-ICALL at SemEval-2022 Task 1: Cross-Attention Multitasking Framework for Definition Modeling	Apr 16, 2022	Language ModelingLanguage Modelling	CodeCode Available
Is Surprisal in Issue Trackers Actionable?	Apr 15, 2022	Event DetectionLanguage Modelling	—Unverified
LaMemo: Language Modeling with Look-Ahead Memory	Apr 15, 2022	Language ModelingLanguage Modelling	CodeCode Available
Text Revision by On-the-Fly Representation Optimization	Apr 15, 2022	AttributeLanguage Modeling	CodeCode Available
Rows from Many Sources: Enriching row completions from Wikidata with a pre-trained Language Model	Apr 14, 2022	DiversityLanguage Modeling	—Unverified
Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in Natural Language Understanding	Apr 13, 2022	Language ModelingLanguage Modelling	—Unverified
HIT at SemEval-2022 Task 2: Pre-trained Language Model for Idioms Detection	Apr 13, 2022	Language ModelingLanguage Modelling	—Unverified
Do Not Fire the Linguist: Grammatical Profiles Help Language Models Detect Semantic Change	Apr 12, 2022	Change DetectionLanguage Modeling	—Unverified
Mining Logical Event Schemas From Pre-Trained Language Models	Apr 12, 2022	Language ModelingLanguage Modelling	—Unverified
Adapting BigScience Multilingual Model to Unseen Languages	Apr 11, 2022	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 258 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified