SOTAVerified|Agents Browse Leaderboard About

HellaSwag

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–39 of 39 papers

Title	Date	Tasks	Status	Hype
HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning	Feb 17, 2025	HellaSwag	—Unverified	0
Domain-Adaptive Continued Pre-Training of Small Language Models	Apr 13, 2025	Domain AdaptationHellaSwag	—Unverified	0
You can remove GPT2's LayerNorm by fine-tuning	Sep 6, 2024	HellaSwag	CodeCode Available	0
Attacks on Node Attributes in Graph Neural Networks	Feb 19, 2024	Contrastive LearningHellaSwag	CodeCode Available	0
FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering	Jan 13, 2025	DescriptiveHellaSwag	CodeCode Available	0
GraDA: Graph Generative Data Augmentation for Commonsense Reasoning	Oct 1, 2022	Data AugmentationHellaSwag	CodeCode Available	0
HellaSwag: Can a Machine Really Finish Your Sentence?	May 19, 2019	HellaSwagNatural Language Inference	CodeCode Available	0
In-Contextual Gender Bias Suppression for Large Language Models	Sep 13, 2023	counterfactualData Augmentation	CodeCode Available	0
On Curriculum Learning for Commonsense Reasoning	Jul 1, 2022	HellaSwagLearning-To-Rank	CodeCode Available	0
SaGE: Evaluating Moral Consistency in Large Language Models	Feb 21, 2024	Decision MakingHellaSwag	CodeCode Available	0
Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation	May 30, 2025	Continual PretrainingFairness	CodeCode Available	0
metabench -- A Sparse Benchmark to Measure General Ability in Large Language Models	Jul 4, 2024	ARCGSM8K	CodeCode Available	0
Toward Adversarial Training on Contextualized Language Representation	May 8, 2023	Decoderglobal-optimization	CodeCode Available	0
What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks	Apr 10, 2025	Common Sense ReasoningHellaSwag	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.