Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11351–11400 of 17610 papers

Title	Date	Tasks	Status
Dr.ICL: Demonstration-Retrieved In-context Learning	May 23, 2023	In-Context LearningLanguage Modeling	—Unverified
AxomiyaBERTa: A Phonologically-aware Transformer Model for Assamese	May 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
Cascaded Beam Search: Plug-and-Play Terminology-Forcing For Neural Machine Translation	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions	May 23, 2023	Data AugmentationLanguage Modeling	CodeCode Available
When your Cousin has the Right Connections: Unsupervised Bilingual Lexicon Induction for Related Data-Imbalanced Languages	May 23, 2023	Bilingual Lexicon InductionLanguage Modeling	CodeCode Available
Images in Language Space: Exploring the Suitability of Large Language Models for Vision & Language Tasks	May 23, 2023	Few-Shot LearningLanguage Modeling	CodeCode Available
Domain Private Transformers for Multi-Domain Dialog Systems	May 23, 2023	domain classificationLanguage Modeling	CodeCode Available
From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
Graph Meets LLM: A Novel Approach to Collaborative Filtering for Robust Conversational Understanding	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Error Detection for Text-to-SQL Semantic Parsing	May 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
When the Music Stops: Tip-of-the-Tongue Retrieval for Music	May 23, 2023	BenchmarkingLanguage Modeling	CodeCode Available
Learning from Mistakes via Cooperative Study Assistant for Large Language Models	May 23, 2023	Imitation LearningLanguage Modeling	CodeCode Available
Regex-augmented Domain Transfer Topic Classification based on a Pre-trained Language Model: An application in Financial Domain	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
Mitigating Test-Time Bias for Fair Image Retrieval	May 23, 2023	Image RetrievalLanguage Modeling	CodeCode Available
The Knowledge Alignment Problem: Bridging Human and External Knowledge for Large Language Models	May 23, 2023	HallucinationLanguage Modeling	CodeCode Available
Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model	May 23, 2023	AvgLanguage Modeling	—Unverified
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization	May 23, 2023	In-Context LearningLanguage Modeling	—Unverified
Leveraging Open Information Extraction for More Robust Domain Transfer of Event Trigger Detection	May 23, 2023	Event DetectionLanguage Modeling	CodeCode Available
Robust Prompt Optimization for Large Language Models Against Distribution Shifts	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
On Robustness of Finetuned Transformer-based NLP Models	May 23, 2023	DecoderLanguage Modelling	CodeCode Available
Language Model Self-improvement by Reinforcement Learning Contemplation	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
R2H: Building Multimodal Navigation Helpers that Respond to Help Requests	May 23, 2023	BenchmarkingLanguage Modeling	—Unverified
Parameter-Efficient Language Model Tuning with Active Learning in Low-Resource Settings	May 23, 2023	Active LearningLanguage Modeling	CodeCode Available
Natural Language Decompositions of Implicit Content Enable Better Text Representations	May 23, 2023	Language ModelingLanguage Modelling	CodeCode Available
Query Rewriting for Retrieval-Augmented Large Language Models	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
Latent Positional Information is in the Self-Attention Variance of Transformer Language Models Without Positional Embeddings	May 23, 2023	Language ModelingLanguage Modelling	—Unverified
Towards Unsupervised Recognition of Token-level Semantic Differences in Related Documents	May 22, 2023	Contrastive LearningLanguage Modeling	CodeCode Available
Text-based Person Search without Parallel Image-Text Data	May 22, 2023	Image CaptioningLanguage Modeling	—Unverified
LMGQS: A Large-scale Dataset for Query-focused Summarization	May 22, 2023	DiversityLanguage Modeling	—Unverified
SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations	May 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
PrOnto: Language Model Evaluations for 859 Languages	May 22, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available
Learning Easily Updated General Purpose Text Representations with Adaptable Task-Specific Prefixes	May 22, 2023	Language ModelingLanguage Modelling	—Unverified
The Influence of ChatGPT on Artificial Intelligence Related Crypto Assets: Evidence from a Synthetic Control Analysis	May 22, 2023	Language ModelingLanguage Modelling	—Unverified
Observations on LLMs for Telecom Domain: Capabilities and Limitations	May 22, 2023	Domain AdaptationLanguage Modeling	—Unverified
Bidirectional Transformer Reranker for Grammatical Error Correction	May 22, 2023	DecoderGrammatical Error Correction	CodeCode Available
Enhance Reasoning Ability of Visual-Language Models via Large Language Models	May 22, 2023	Language ModelingLanguage Modelling	—Unverified
ConQueR: Contextualized Query Reduction using Search Logs	May 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
Explaining Emergent In-Context Learning as Kernel Regression	May 22, 2023	Bayesian InferenceIn-Context Learning	—Unverified
GPT-SW3: An Autoregressive Language Model for the Nordic Languages	May 22, 2023	Language ModelingLanguage Modelling	—Unverified
Can LLMs facilitate interpretation of pre-trained language models?	May 22, 2023	Language ModelingLanguage Modelling	—Unverified
Extrapolating Multilingual Understanding Models as Multilingual Generators	May 22, 2023	DenoisingLanguage Modeling	—Unverified
Farewell to Aimless Large-scale Pretraining: Influential Subset Selection for Language Model	May 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
Distilling Robustness into Natural Language Inference Models with Domain-Targeted Augmentation	May 22, 2023	Data AugmentationKnowledge Distillation	—Unverified
Evaluating Pragmatic Abilities of Image Captioners on A3DS	May 22, 2023	Language ModelingLanguage Modelling	—Unverified
Federated Learning of Medical Concepts Embedding using BEHRT	May 22, 2023	Federated LearningLanguage Modeling	CodeCode Available
Distilling ChatGPT for Explainable Automated Student Answer Assessment	May 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
A Pilot Study on Dialogue-Level Dependency Parsing for Chinese	May 21, 2023	Dependency ParsingLanguage Modeling	—Unverified
Augmenting Autotelic Agents with Large Language Models	May 21, 2023	Common Sense ReasoningLanguage Modeling	—Unverified
Direct Fact Retrieval from Knowledge Graphs without Entity Linking	May 21, 2023	Entity DisambiguationEntity Linking	—Unverified
DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection	May 21, 2023	Language ModellingLarge Language Model	—Unverified

Show:10 25 50

← PrevPage 228 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified