Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11301–11350 of 17610 papers

Title	Date	Tasks	Status	Hype
Mega: Moving Average Equipped Gated Attention	Sep 21, 2022	Image ClassificationInductive Bias	CodeCode Available	2
WeLM: A Well-Read Pre-trained Language Model for Chinese	Sep 21, 2022	Language ModelingLanguage Modelling	—Unverified	0
Generate rather than Retrieve: Large Language Models are Strong Context Generators	Sep 21, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting	Sep 20, 2022	Language ModellingRepresentation Learning	CodeCode Available	1
LINGUIST: Language Model Instruction Tuning to Generate Annotated Utterances for Intent Classification and Slot Tagging	Sep 20, 2022	intent-classificationIntent Classification	—Unverified	0
Probabilistic Generative Transformer Language models for Generative Design of Molecules	Sep 20, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Relaxed Attention for Transformer Models	Sep 20, 2022	DecoderImage Classification	—Unverified	0
Automatic Label Sequence Generation for Prompting Sequence-to-sequence Models	Sep 20, 2022	Few-Shot LearningLanguage Modeling	CodeCode Available	1
A Few-shot Approach to Resume Information Extraction via Prompts	Sep 20, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Generalizing through Forgetting -- Domain Generalization for Symptom Event Extraction in Clinical Notes	Sep 20, 2022	Domain GeneralizationEvent Extraction	—Unverified	0
GAMA: Generative Adversarial Multi-Object Scene Attacks	Sep 20, 2022	Language ModellingObject	CodeCode Available	1
Improving Fake News Detection of Influential Domain via Domain- and Instance-Level Transfer	Sep 19, 2022	Fake News DetectionLanguage Modelling	CodeCode Available	1
From Disfluency Detection to Intent Detection and Slot Filling	Sep 17, 2022	Intent DetectionLanguage Modeling	CodeCode Available	0
CodeQueries: A Dataset of Semantic Queries over Code	Sep 17, 2022	AttributeExtractive Question-Answering	CodeCode Available	1
Selective Token Generation for Few-shot Natural Language Generation	Sep 17, 2022	Data-to-Text GenerationLanguage Modeling	CodeCode Available	0
The Whole Truth and Nothing But the Truth: Faithful and Controllable Dialogue Response Generation with Dataflow Transduction and Constrained Decoding	Sep 16, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning	Sep 16, 2022	HallucinationLanguage Modeling	—Unverified	0
Can Offline Reinforcement Learning Help Natural Language Understanding?	Sep 15, 2022	Language ModelingLanguage Modelling	—Unverified	0
PTab: Using the Pre-trained Language Model for Modeling Tabular Data	Sep 15, 2022	Language ModelingLanguage Modelling	—Unverified	0
Stateful Memory-Augmented Transformers for Efficient Dialogue Modeling	Sep 15, 2022	DecoderDialogue Generation	CodeCode Available	0
TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations at Twitter	Sep 15, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
uChecker: Masked Pretrained Language Models as Unsupervised Chinese Spelling Checkers	Sep 15, 2022	Language ModelingLanguage Modelling	—Unverified	0
Cold-Start Data Selection for Few-shot Language Model Fine-tuning: A Prompt-Based Uncertainty Propagation Approach	Sep 15, 2022	DiversityLanguage Modeling	CodeCode Available	1
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified	0
Out of One, Many: Using Language Models to Simulate Human Samples	Sep 14, 2022	Language Modelling	—Unverified	0
SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation	Sep 14, 2022	Contrastive Learningdialog state tracking	—Unverified	0
Order-Disorder: Imitation Adversarial Attacks for Black-box Neural Ranking Models	Sep 14, 2022	Adversarial AttackLanguage Modelling	CodeCode Available	1
Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing N-gram Language Models	Sep 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving Language Model Prompting in Support of Semi-autonomous Task Learning	Sep 13, 2022	Language ModelingLanguage Modelling	—Unverified	0
Exploring Code Style Transfer with Neural Networks	Sep 13, 2022	ClusteringLanguage Modeling	—Unverified	0
Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest	Sep 13, 2022	Language Modelling	CodeCode Available	1
Revisiting Neural Scaling Laws in Language and Vision	Sep 13, 2022	image-classificationImage Classification	—Unverified	0
Don't Judge a Language Model by Its Last Layer: Contrastive Learning with Layer-Wise Attention Pooling	Sep 13, 2022	Contrastive LearningLanguage Modeling	CodeCode Available	0
Open-Domain Dialog Evaluation using Follow-Ups Likelihood	Sep 12, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Applying wav2vec2 for Speech Recognition on Bengali Common Voices Dataset	Sep 11, 2022	Language ModelingLanguage Modelling	—Unverified	0
A Complex Network based Graph Embedding Method for Link Prediction	Sep 11, 2022	Data VisualizationGraph Embedding	—Unverified	0
OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue	Sep 10, 2022	Language ModelingLanguage Modelling	—Unverified	0
T-NER: An All-Round Python Library for Transformer-based Named Entity Recognition	Sep 9, 2022	AllDomain Generalization	CodeCode Available	2
Multilingual Transformer Language Model for Speech Recognition in Low-resource Languages	Sep 8, 2022	Language ModelingLanguage Modelling	—Unverified	0
Multi-Granularity Prediction for Scene Text Recognition	Sep 8, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Pre-Training a Graph Recurrent Network for Language Representation	Sep 8, 2022	Language ModellingSentence	CodeCode Available	0
Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM	Sep 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
IDIAPers @ Causal News Corpus 2022: Extracting Cause-Effect-Signal Triplets via Pre-trained Autoregressive Language Model	Sep 8, 2022	Event Causality IdentificationLanguage Modeling	CodeCode Available	0
IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation Identification Through a Prompt-based Few-shot Approach	Sep 8, 2022	Event Causality IdentificationLanguage Modeling	CodeCode Available	0
Blessing of Class Diversity in Pre-training	Sep 7, 2022	DiversityLanguage Modeling	—Unverified	0
AudioLM: a Language Modeling Approach to Audio Generation	Sep 7, 2022	Audio Generation	CodeCode Available	7
On the Effectiveness of Compact Biomedical Transformers	Sep 7, 2022	Continual LearningKnowledge Distillation	CodeCode Available	1
ASR2K: Speech Recognition for Around 2000 Languages without Audio	Sep 6, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Depression Symptoms Modelling from Social Media Text: A Semi-supervised Learning Approach	Sep 6, 2022	Active LearningDepression Detection	—Unverified	0
Mlphon: A Multifunctional Grapheme-Phoneme Conversion Tool Using Finite State Transducers	Sep 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0

Show:10 25 50

← PrevPage 227 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified