SOTAVerified|Agents Browse Leaderboard About

StrategyQA

StrategyQA aims to measure the ability of models to answer questions that require multi-step implicit reasoning.

Source: BIG-bench

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–40 of 40 papers

Title	Date	Tasks	Status	Hype
Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval	Aug 9, 2023	ARCLanguage Modelling	—Unverified	0
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions	Aug 2, 2023	ARCInformation Retrieval	CodeCode Available	0
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks	May 28, 2023	MedQAMemorization	CodeCode Available	1
Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models	May 23, 2023	Logical ReasoningStrategyQA	—Unverified	0
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
Self-Evaluation Guided Beam Search for Reasoning	May 1, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
Visconde: Multi-document QA with GPT-3 and Neural Reranking	Dec 19, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Distilling Reasoning Capabilities into Smaller Language Models	Dec 1, 2022	GSM8KKnowledge Distillation	CodeCode Available	0
Learning to Decompose: Hypothetical Question Decomposition Based on Comparable Texts	Oct 30, 2022	Language ModelingLanguage Modelling	—Unverified	0
Better Retrieval May Not Lead to Better Question Answering	May 7, 2022	Information RetrievalOpen-Domain Question Answering	—Unverified	0
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6
Self-Consistency Improves Chain of Thought Reasoning in Language Models	Mar 21, 2022	ARCArithmetic Reasoning	CodeCode Available	1
Scaling Language Models: Methods, Analysis & Insights from Training Gopher	Dec 8, 2021	Abstract AlgebraAnachronisms	CodeCode Available	2
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.