Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11901–11950 of 17610 papers

Title	Date	Tasks	Status	Hype
ChipSong: A Controllable Lyric Generation System for Chinese Popular Song	May 1, 2022	Language ModellingSentence	CodeCode Available	0
Answer-level Calibration for Free-form Multiple Choice Question Answering	May 1, 2022	FormLanguage Modeling	CodeCode Available	0
Graph-combined Coreference Resolution Methods on Conversational Machine Reading Comprehension with Pre-trained Language Model	May 1, 2022	coreference-resolutionCoreference Resolution	—Unverified	0
A Holistic Assessment of the Carbon Footprint of Noor, a Very Large Arabic Language Model	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Dataset Debt in Biomedical Language Modeling	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
AlephBERT: Language Model Pre-training and Evaluation from Sub-Word to Sentence Level	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Enhancing Cross-lingual Natural Language Inference by Prompt-learning from Cross-lingual Templates	May 1, 2022	Cross-Lingual Natural Language InferenceCross-Lingual Transfer	CodeCode Available	0
Domain Knowledge Transferring for Pre-trained Language Model via Calibrated Activation Boundary Distillation	May 1, 2022	Knowledge DistillationLanguage Modeling	CodeCode Available	0
Controlled Text Generation Using Dictionary Prior in Variational Autoencoders	May 1, 2022	Contrastive LearningLanguage Modeling	—Unverified	0
Domain-specific knowledge distillation yields smaller and better models for conversational commerce	May 1, 2022	Knowledge DistillationLanguage Modeling	—Unverified	0
Combining Extraction and Generation for Constructing Belief-Consequence Causal Links	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Adaptive Differential Privacy for Language Model Training	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Debiasing Pre-Trained Language Models via Efficient Fine-Tuning	May 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
A Knowledge storage and semantic space alignment Method for Multi-documents dialogue generation	May 1, 2022	ArticlesDialogue Generation	—Unverified	0
Using Cross-Lingual Part of Speech Tagging for Partially Reconstructing the Classic Language Family Tree Model	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
What Works and Doesn’t Work, A Deep Decoder for Neural Machine Translation	May 1, 2022	DecoderLanguage Modelling	—Unverified	0
You reap what you sow: On the Challenges of Bias Evaluation Under Multilingual Settings	May 1, 2022	FairnessLanguage Modeling	—Unverified	0
Using neural topic models to track context shifts of words: a case study of COVID-related terms before and after the lockdown in April 2020	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Using ASR-Generated Text for Spoken Language Modeling	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Understanding BERT’s Mood: The Role of Contextual-Embeddings as User-Representations for Depression Assessment	May 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Large-Scale Multi-Document Summarization with Information Extraction and Compression	May 1, 2022	Abstractive Text SummarizationDocument Summarization	—Unverified	0
Dynamic Programming in Rank Space: Scaling Structured Inference with Low-Rank HMMs and PCFGs	May 1, 2022	Constituency Grammar InductionLanguage Modeling	CodeCode Available	1
Visualizing and Explaining Language Models	Apr 30, 2022	Deep LearningLanguage Modeling	—Unverified	0
To Interpolate or not to Interpolate: PRF, Dense and Sparse Retrievers	Apr 30, 2022	Information RetrievalLanguage Modelling	—Unverified	0
LayoutBERT: Masked Language Layout Model for Object Insertion	Apr 30, 2022	Language Modellingmodel	—Unverified	0
Self-Programming Artificial Intelligence Using Code-Generating Language Models	Apr 30, 2022	Code GenerationLanguage Modeling	—Unverified	0
C3-STISR: Scene Text Image Super-resolution with Triple Clues	Apr 29, 2022	Image Super-ResolutionLanguage Modelling	CodeCode Available	1
Flamingo: a Visual Language Model for Few-Shot Learning	Apr 29, 2022	Few-Shot LearningGenerative Visual Question Answering	CodeCode Available	4
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining	Apr 29, 2022	Image ClassificationLanguage Modeling	—Unverified	0
OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak Supervision	Apr 29, 2022	AttributeAttribute Mining	CodeCode Available	1
Training Language Models with Language Feedback	Apr 29, 2022	Language ModelingLanguage Modelling	—Unverified	0
Vision-Language Pre-Training for Boosting Scene Text Detectors	Apr 29, 2022	Contrastive LearningLanguage Modeling	CodeCode Available	0
HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification	Apr 28, 2022	ClassificationLanguage Modeling	CodeCode Available	1
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers	Apr 28, 2022	Image GenerationLanguage Modeling	CodeCode Available	2
On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model	Apr 28, 2022	Few-Shot LearningIn-Context Learning	—Unverified	0
RigoBERTa: A State-of-the-Art Language Model For Spanish	Apr 27, 2022	Language ModelingLanguage Modelling	—Unverified	0
Probing Simile Knowledge from Pre-trained Language Models	Apr 27, 2022	DiversityLanguage Modelling	CodeCode Available	0
UBERT: A Novel Language Model for Synonymy Prediction at Scale in the UMLS Metathesaurus	Apr 27, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation	Apr 27, 2022	DecoderDiversity	CodeCode Available	1
A Comprehensive Understanding of Code-mixed Language Semantics using Hierarchical Transformer	Apr 27, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
You Don't Know My Favorite Color: Preventing Dialogue Representations from Revealing Speakers' Private Personas	Apr 26, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Pretraining Chinese BERT for Detecting Word Insertion and Deletion Errors	Apr 26, 2022	Language ModelingLanguage Modelling	—Unverified	0
Parkinson's disease diagnostics using AI and natural language knowledge transfer	Apr 26, 2022	Language ModelingLanguage Modelling	—Unverified	0
Efficient Machine Translation Domain Adaptation	Apr 26, 2022	Domain AdaptationLanguage Modeling	CodeCode Available	0
GypSum: Learning Hybrid Representations for Code Summarization	Apr 26, 2022	Code SummarizationDecoder	CodeCode Available	1
Unsupervised Representation Learning of Player Behavioral Data with Confidence Guided Masking	Apr 25, 2022	Feature EngineeringLanguage Modeling	CodeCode Available	0
C3: Continued Pretraining with Contrastive Weak Supervision for Cross Language Ad-Hoc Retrieval	Apr 25, 2022	ArticlesLanguage Modeling	—Unverified	0
ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference	Apr 25, 2022	DecoderInformation Retrieval	—Unverified	0
Crystal Transformer: Self-learning neural language model for Generative and Tinkering Design of Materials	Apr 25, 2022	Language ModelingLanguage Modelling	—Unverified	0
Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce Data Annotation Required in Visual Commonsense Tasks	Apr 25, 2022	Few-Shot LearningIn-Context Learning	—Unverified	0

Show:10 25 50

← PrevPage 239 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified