SOTAVerified|Agents Browse Leaderboard About

Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 876–900 of 1596 papers

Title	Date	Tasks	Status	Hype
Personality-aware Student Simulation for Conversational Intelligent Tutoring Systems	Apr 10, 2024	Math	—Unverified	0
MathVC: An LLM-Simulated Multi-Character Virtual Classroom for Mathematics Education	Apr 10, 2024	Math	—Unverified	0
Evaluating Mathematical Reasoning Beyond Accuracy	Apr 8, 2024	MathMathematical Reasoning	CodeCode Available	2
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification	Apr 7, 2024	Image ComprehensionMath	CodeCode Available	0
FRACTAL: Fine-Grained Scoring from Aggregate Text Labels	Apr 7, 2024	MathMultiple Instance Learning	—Unverified	0
MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems	Apr 6, 2024	Logical ReasoningMath	CodeCode Available	2
Data Augmentation with In-Context Learning and Comparative Evaluation in Math Word Problem Solving	Apr 5, 2024	Data AugmentationIn-Context Learning	—Unverified	0
BAdam: A Memory Efficient Full Parameter Optimization Method for Large Language Models	Apr 3, 2024	GPUMath	CodeCode Available	3
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline	Apr 3, 2024	MathMathematical Problem-Solving	CodeCode Available	2
Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT	Apr 3, 2024	BenchmarkingGeneral Knowledge	CodeCode Available	1
LM^2: A Simple Society of Language Models Solves Complex Reasoning	Apr 2, 2024	MathMedQA	CodeCode Available	0
Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models	Apr 2, 2024	Distractor GenerationIn-Context Learning	CodeCode Available	0
HyperCLOVA X Technical Report	Apr 2, 2024	Instruction FollowingMachine Translation	—Unverified	0
Exploring the Mystery of Influential Data for Mathematical Reasoning	Apr 1, 2024	MathMathematical Reasoning	—Unverified	0
Stable Code Technical Report	Apr 1, 2024	Code CompletionLanguage Modelling	—Unverified	0
IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations	Apr 1, 2024	BenchmarkingMath	—Unverified	0
Self-Demos: Eliciting Out-of-Demonstration Generalizability in Large Language Models	Apr 1, 2024	In-Context LearningMath	CodeCode Available	0
What is in Your Safe Data? Identifying Benign Data that Breaks Safety	Apr 1, 2024	Math	CodeCode Available	1
Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange	Mar 30, 2024	MathMathematical Problem-Solving	CodeCode Available	0
ML2SC: Deploying Machine Learning Models as Smart Contracts on the Blockchain	Mar 28, 2024	Math	—Unverified	0
Large Language Models Are Struggle to Cope with Unreasonability in Math Problems	Mar 28, 2024	Math	—Unverified	0
Scaling up ridge regression for brain encoding in a massive individual fMRI dataset	Mar 28, 2024	CPUMath	CodeCode Available	0
Few-Shot Recalibration of Language Models	Mar 27, 2024	MathMMLU	—Unverified	0
The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian	Mar 27, 2024	Language ModellingMath	—Unverified	0
Don't Trust: Verify -- Grounding LLM Quantitative Reasoning with Autoformalization	Mar 26, 2024	Automated Theorem ProvingGSM8K	CodeCode Available	1

Show:10 25 50

← PrevPage 36 of 64Next →

No leaderboard results yet.