Continual Pretraining

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 70 papers

Title	Date	Tasks	Status	Hype
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content	Jun 25, 2025	ArticlesContinual Pretraining	—Unverified	0
LLaVA-c: Continual Improved Visual Instruction Tuning	Jun 10, 2025	Continual LearningContinual Pretraining	—Unverified	0
Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation	May 30, 2025	Continual PretrainingFairness	CodeCode Available	0
A Japanese Language Model and Three New Evaluation Benchmarks for Pharmaceutical NLP	May 22, 2025	Continual PretrainingDiagnostic	CodeCode Available	0
Enhance Mobile Agents Thinking Process Via Iterative Preference Learning	May 18, 2025	Continual Pretraining	—Unverified	0
Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning	May 15, 2025	Continual PretrainingMMLU	—Unverified	0
Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language	Apr 28, 2025	Continual PretrainingGPU	—Unverified	0
TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining	Apr 2, 2025	Continual LearningContinual Pretraining	CodeCode Available	1
Enhancing Domain-Specific Encoder Models with LLM-Generated Data: How to Leverage Ontologies, and How to Do Without Them	Mar 27, 2025	Continual PretrainingLanguage Modeling	—Unverified	0
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling	Mar 24, 2025	Continual PretrainingLanguage Modeling	—Unverified	0
AfroXLMR-Social: Adapting Pre-trained Language Models for African Languages Social Media Text	Mar 24, 2025	Continual PretrainingEmotion Classification	—Unverified	0
Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge	Mar 6, 2025	Continual PretrainingMemorization	CodeCode Available	0
Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study	Feb 4, 2025	Continual PretrainingMachine Translation	—Unverified	0
Demystifying Domain-adaptive Post-training for Financial LLMs	Jan 9, 2025	Continual PretrainingDomain Adaptation	CodeCode Available	1
NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis	Dec 11, 2024	Continual PretrainingLanguage Modeling	CodeCode Available	1
Breaking the Stage Barrier: A Novel Single-Stage Approach to Long Context Extension for Large Language Models	Dec 10, 2024	Continual PretrainingLanguage Modeling	—Unverified	0
Alchemy: Amplifying Theorem-Proving Capability through Symbolic Mutation	Oct 21, 2024	Automated Theorem ProvingContinual Pretraining	CodeCode Available	0
DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining	Sep 30, 2024	Continual PretrainingDomain Adaptation	—Unverified	0
The Construction of Instruction-tuned LLMs for Finance without Instruction Data Using Continual Pretraining and Model Merging	Sep 30, 2024	Continual Pretraining	—Unverified	0
AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy	Sep 29, 2024	AstronomyBenchmarking	—Unverified	0
LangSAMP: Language-Script Aware Multilingual Pretraining	Sep 26, 2024	Continual PretrainingLanguage Modeling	CodeCode Available	0
Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach	Sep 9, 2024	Computational EfficiencyContinual Pretraining	CodeCode Available	0
A Practitioner's Guide to Continual Multimodal Pretraining	Aug 26, 2024	Continual LearningContinual Pretraining	CodeCode Available	2
RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining	Aug 21, 2024	Continual PretrainingCross-Lingual Transfer	—Unverified	0
Scaling Granite Code Models to 128K Context	Jul 18, 2024	2k4k	CodeCode Available	4
Bilingual Adaptation of Monolingual Foundation Models	Jul 13, 2024	Continual PretrainingCross-Lingual Transfer	—Unverified	0
70B-parameter large language models in Japanese medical question-answering	Jun 21, 2024	Continual PretrainingDomain Adaptation	—Unverified	0
Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective	Jun 19, 2024	BenchmarkingContinual Pretraining	—Unverified	0
Open Generative Large Language Models for Galician	Jun 19, 2024	Continual PretrainingDiversity	—Unverified	0
BAMBINO-LM: (Bilingual-)Human-Inspired Continual Pretraining of BabyLM	Jun 17, 2024	Continual Pretrainingzero-shot-classification	—Unverified	0
Towards Lifelong Learning of Large Language Models: A Survey	Jun 10, 2024	Continual PretrainingIncremental Learning	CodeCode Available	2
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models	Jun 2, 2024	Continual PretrainingInformation Retrieval	—Unverified	0
Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining	May 30, 2024	Continual PretrainingContrastive Learning	CodeCode Available	1
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning	May 20, 2024	Continual PretrainingMathematical Reasoning	CodeCode Available	3
Cross-sensor self-supervised training and alignment for remote sensing	May 16, 2024	Continual PretrainingEarth Observation	—Unverified	0
ChuXin: 1.6B Technical Report	May 8, 2024	Continual PretrainingLanguage Modeling	—Unverified	0
Retrieval Head Mechanistically Explains Long-Context Factuality	Apr 24, 2024	Continual PretrainingHallucination	CodeCode Available	3
Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain	Apr 12, 2024	Continual PretrainingGeneral Knowledge	—Unverified	0
CEM: A Data-Efficient Method for Large Language Models to Continue Evolving From Mistakes	Apr 11, 2024	Continual LearningContinual Pretraining	—Unverified	0
Rho-1: Not All Tokens Are What You Need	Apr 11, 2024	AllContinual Pretraining	CodeCode Available	3
Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code	Mar 30, 2024	Continual PretrainingLanguage Modelling	—Unverified	0
PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation?	Mar 20, 2024	Abstractive Text SummarizationContinual Pretraining	—Unverified	0
Yi: Open Foundation Models by 01.AI	Mar 7, 2024	AttributeChatbot	CodeCode Available	9
Investigating Continual Pretraining in Large Language Models: Insights and Implications	Feb 27, 2024	Continual LearningContinual Pretraining	—Unverified	0
Data Engineering for Scaling Language Models to 128K Context	Feb 15, 2024	4kContinual Pretraining	CodeCode Available	3
Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts	Feb 12, 2024	Continual PretrainingGSM8K	CodeCode Available	2
Continual Learning for Large Language Models: A Survey	Feb 2, 2024	Continual LearningContinual Pretraining	—Unverified	0
RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization	Jan 25, 2024	Continual PretrainingSentiment Analysis	CodeCode Available	0
PECoP: Parameter Efficient Continual Pretraining for Action Quality Assessment	Nov 11, 2023	Action Quality AssessmentContinual Pretraining	CodeCode Available	0
Effective Long-Context Scaling of Foundation Models	Sep 27, 2023	Continual PretrainingLanguage Modeling	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets ACL ARC AG News SciERC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DAS	F1 (macro)	0.69	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CPT	F1 - macro	63.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAS	F1 (macro)	0.71	—	Unverified