Continual Pretraining

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 70 papers

Title	Date	Tasks	Status	Hype
Bilingual Adaptation of Monolingual Foundation Models	Jul 13, 2024	Continual PretrainingCross-Lingual Transfer	—Unverified	0
70B-parameter large language models in Japanese medical question-answering	Jun 21, 2024	Continual PretrainingDomain Adaptation	—Unverified	0
Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective	Jun 19, 2024	BenchmarkingContinual Pretraining	—Unverified	0
Open Generative Large Language Models for Galician	Jun 19, 2024	Continual PretrainingDiversity	—Unverified	0
BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pretraining of BabyLM	Jun 17, 2024	Continual Pretrainingzero-shot-classification	—Unverified	0
Towards Lifelong Learning of Large Language Models: A Survey	Jun 10, 2024	Continual PretrainingIncremental Learning	CodeCode Available	2
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models	Jun 2, 2024	Continual PretrainingInformation Retrieval	—Unverified	0
Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining	May 30, 2024	Continual PretrainingContrastive Learning	CodeCode Available	1
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning	May 20, 2024	Continual PretrainingMathematical Reasoning	CodeCode Available	3
Cross-sensor self-supervised training and alignment for remote sensing	May 16, 2024	Continual PretrainingEarth Observation	—Unverified	0
ChuXin: 1.6B Technical Report	May 8, 2024	Continual PretrainingLanguage Modeling	—Unverified	0
Retrieval Head Mechanistically Explains Long-Context Factuality	Apr 24, 2024	Continual PretrainingHallucination	CodeCode Available	3
Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain	Apr 12, 2024	Continual PretrainingGeneral Knowledge	—Unverified	0
CEM: A Data-Efficient Method for Large Language Models to Continue Evolving From Mistakes	Apr 11, 2024	Continual LearningContinual Pretraining	—Unverified	0
Rho-1: Not All Tokens Are What You Need	Apr 11, 2024	AllContinual Pretraining	CodeCode Available	3
Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code	Mar 30, 2024	Continual PretrainingLanguage Modelling	—Unverified	0
PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation?	Mar 20, 2024	Abstractive Text SummarizationContinual Pretraining	—Unverified	0
Yi: Open Foundation Models by 01.AI	Mar 7, 2024	AttributeChatbot	CodeCode Available	9
Investigating Continual Pretraining in Large Language Models: Insights and Implications	Feb 27, 2024	Continual LearningContinual Pretraining	—Unverified	0
Data Engineering for Scaling Language Models to 128K Context	Feb 15, 2024	4kContinual Pretraining	CodeCode Available	3
Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts	Feb 12, 2024	Continual PretrainingGSM8K	CodeCode Available	2
Continual Learning for Large Language Models: A Survey	Feb 2, 2024	Continual LearningContinual Pretraining	—Unverified	0
RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization	Jan 25, 2024	Continual PretrainingSentiment Analysis	CodeCode Available	0
PECoP: Parameter Efficient Continual Pretraining for Action Quality Assessment	Nov 11, 2023	Action Quality AssessmentContinual Pretraining	CodeCode Available	0
Effective Long-Context Scaling of Foundation Models	Sep 27, 2023	Continual PretrainingLanguage Modeling	CodeCode Available	2

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets ACL ARC AG News SciERC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DAS	F1 (macro)	0.69	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CPT	F1 - macro	63.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAS	F1 (macro)	0.71	—	Unverified