SOTAVerified|Agents Browse Leaderboard About Blog

StrategyQA

StrategyQA aims to measure the ability of models to answer questions that require multi-step implicit reasoning.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 40 papers

Title	Date	Tasks	Status	Hype
Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage	May 13, 2025	Knowledge DistillationLarge Language Model	—Unverified	0
Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models	Mar 14, 2025	Checkmate In OneGSM8K	—Unverified	0
DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability	Mar 4, 2025	GSM8KLogical Reasoning	CodeCode Available	0
Voting or Consensus? Decision-Making in Multi-Agent Debate	Feb 26, 2025	Decision MakingMMLU	CodeCode Available	0
Unraveling Indirect In-Context Learning Using Influence Functions	Jan 1, 2025	In-Context LearningInformativeness	—Unverified	0
AutoReason: Automatic Few-Shot Reasoning Decomposition	Dec 9, 2024	StrategyQA	CodeCode Available	1
Dialectical Behavior Therapy Approach to LLM Prompting	Oct 10, 2024	GSM8KStrategyQA	—Unverified	0
Rationale-Aware Answer Verification by Pairwise Self-Evaluation	Oct 7, 2024	ARCStrategyQA	CodeCode Available	0
A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions	Sep 30, 2024	Prompt EngineeringStrategyQA	—Unverified	0
Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning	Sep 25, 2024	BenchmarkingFormal Logic	—Unverified	0
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers	Aug 12, 2024	GSM8KMath	CodeCode Available	4
Meta-prompting Optimized Retrieval-augmented Generation	Jul 4, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Question-Analysis Prompting Improves LLM Performance in Reasoning Tasks	Jul 4, 2024	GSM8KStrategyQA	—Unverified	0
Advancing Process Verification for Large Language Models via Tree-Based Preference Learning	Jun 29, 2024	Binary ClassificationGSM8K	—Unverified	0
Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast	May 23, 2024	Computational EfficiencyGSM8K	CodeCode Available	1
Improving Attributed Text Generation of Large Language Models via Preference Learning	Mar 27, 2024	MisinformationRetrieval	—Unverified	0
CR-LT-KGQA: A Knowledge Graph Question Answering Dataset Requiring Commonsense Reasoning and Long-Tail Knowledge	Mar 3, 2024	Claim VerificationGraph Question Answering	CodeCode Available	1
Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation	Feb 21, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	1
Towards Uncertainty-Aware Language Agent	Jan 25, 2024	MMLUStrategyQA	—Unverified	0
Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning	Jan 19, 2024	GSM8KMath	CodeCode Available	1
IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions	Nov 30, 2023	Knowledge DistillationRAG	—Unverified	0
The ART of LLM Refinement: Ask, Refine, and Trust	Nov 14, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
Tailoring Self-Rationalizers with Multi-Reward Distillation	Nov 6, 2023	DiversityQuestion Answering	CodeCode Available	0
Improving Planning with Large Language Models: A Modular Agentic Architecture	Sep 30, 2023	In-Context LearningReinforcement Learning (RL)	CodeCode Available	1
Large Language Models Are Also Good Prototypical Commonsense Reasoners	Sep 22, 2023	StrategyQA	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.