SOTAVerified|Agents Browse Leaderboard About

HellaSwag

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 39 papers

Title	Date	Tasks	Status	Hype	Score
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6	5
DataDecide: How to Predict Best Pretraining Data with Small Experiments	Apr 15, 2025	ARCHellaSwag	CodeCode Available	3	5
LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding	Apr 25, 2024	GSM8KHellaSwag	CodeCode Available	3	5
Scaling Language Models: Methods, Analysis & Insights from Training Gopher	Dec 8, 2021	Abstract AlgebraAnachronisms	CodeCode Available	2	5
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models	Dec 29, 2023	HellaSwag	CodeCode Available	1	5
An Open Source Data Contamination Report for Large Language Models	Oct 26, 2023	HellaSwagLanguage Modeling	CodeCode Available	1	5
When Chosen Wisely, More Data Is What You Need: A Universal Sample-Efficient Strategy For Data Augmentation	Mar 17, 2022	Data AugmentationHellaSwag	CodeCode Available	1	5
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization	Oct 27, 2024	GSM8KHellaSwag	CodeCode Available	1	5
UNICORN on RAINBOW: A Universal Commonsense Reasoning Model on a New Multitask Benchmark	Mar 24, 2021	Common Sense ReasoningHellaSwag	CodeCode Available	1	5
You can remove GPT2's LayerNorm by fine-tuning	Sep 6, 2024	HellaSwag	CodeCode Available	0	5
Attacks on Node Attributes in Graph Neural Networks	Feb 19, 2024	Contrastive LearningHellaSwag	CodeCode Available	0	5
FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering	Jan 13, 2025	DescriptiveHellaSwag	CodeCode Available	0	5
GraDA: Graph Generative Data Augmentation for Commonsense Reasoning	Oct 1, 2022	Data AugmentationHellaSwag	CodeCode Available	0	5
HellaSwag: Can a Machine Really Finish Your Sentence?	May 19, 2019	HellaSwagNatural Language Inference	CodeCode Available	0	5
In-Contextual Gender Bias Suppression for Large Language Models	Sep 13, 2023	counterfactualData Augmentation	CodeCode Available	0	5
On Curriculum Learning for Commonsense Reasoning	Jul 1, 2022	HellaSwagLearning-To-Rank	CodeCode Available	0	5
SaGE: Evaluating Moral Consistency in Large Language Models	Feb 21, 2024	Decision MakingHellaSwag	CodeCode Available	0	5
Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation	May 30, 2025	Continual PretrainingFairness	CodeCode Available	0	5
metabench -- A Sparse Benchmark to Measure General Ability in Large Language Models	Jul 4, 2024	ARCGSM8K	CodeCode Available	0	5
Toward Adversarial Training on Contextualized Language Representation	May 8, 2023	Decoderglobal-optimization	CodeCode Available	0	5
What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks	Apr 10, 2025	Common Sense ReasoningHellaSwag	CodeCode Available	0	5
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs	Sep 30, 2024	ARCDiversity	—Unverified	0	0
Promises, Outlooks and Challenges of Diffusion Language Modeling	Jun 17, 2024	ARCHellaSwag	—Unverified	0	0
Comparing Test Sets with Item Response Theory	Jun 1, 2021	HellaSwagNatural Language Understanding	—Unverified	0	0
English Intermediate-Task Training Improves Zero-Shot Cross-Lingual Transfer Too	May 26, 2020	Cross-Lingual TransferHellaSwag	—Unverified	0	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.