Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 1596 papers

Title	Date	Tasks	Status
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning	Aug 20, 2024	BenchmarkingLanguage Modelling	—Unverified
Benchmarking Large Language Models for Math Reasoning Tasks	Aug 20, 2024	BenchmarkingIn-Context Learning	CodeCode Available
A Study of PHOC Spatial Region Configurations for Math Formula Retrieval	Aug 17, 2024	MathRetrieval	—Unverified
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions	Aug 16, 2024	DescriptiveHallucination	—Unverified
Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models	Aug 15, 2024	Math	—Unverified
Leveraging Web-Crawled Data for High-Quality Fine-Tuning	Aug 15, 2024	Language ModelingLanguage Modelling	CodeCode Available
MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark	Aug 14, 2024	MathMathematical Reasoning	CodeCode Available
A Perspective on Large Language Models, Intelligent Machines, and Knowledge Acquisition	Aug 13, 2024	Common Sense ReasoningMath	—Unverified
P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training	Aug 10, 2024	DiversityLogical Reasoning	—Unverified
Examining the Behavior of LLM Architectures Within the Framework of Standardized National Exams in Brazil	Aug 9, 2024	MathMultiple-choice	—Unverified
AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People	Aug 5, 2024	Math	—Unverified
The Logic of Political Survival Revisited: Consequences of Elite Uncertainty Under Authoritarian Rule	Aug 4, 2024	Math	—Unverified
AI-Assisted Generation of Difficult Math Questions	Jul 30, 2024	MathMathematical Reasoning	CodeCode Available
Towards Effective and Efficient Continual Pre-training of Large Language Models	Jul 26, 2024	Math	CodeCode Available
Recursive Introspection: Teaching Language Model Agents How to Self-Improve	Jul 25, 2024	Imitation LearningLanguage Modeling	—Unverified
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data	Jul 20, 2024	Language ModellingMachine Translation	—Unverified
Prover-Verifier Games improve legibility of LLM outputs	Jul 18, 2024	Math	CodeCode Available
A LLM Benchmark based on the Minecraft Builder Dialog Agent Task	Jul 17, 2024	MathMinecraft	—Unverified
CCoE: A Compact LLM with Collaboration of Experts	Jul 16, 2024	Language ModellingLarge Language Model	—Unverified
Reasoning with Large Language Models, a Survey	Jul 16, 2024	Few-Shot LearningIn-Context Learning	—Unverified
Token-Supervised Value Models for Enhancing Mathematical Reasoning Capabilities of Large Language Models	Jul 12, 2024	GSM8KMath	—Unverified
TelecomGPT: A Framework to Build Telecom-Specfic Large Language Models	Jul 12, 2024	Code GenerationMath	—Unverified
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors	Jul 12, 2024	Language ModelingLanguage Modelling	CodeCode Available
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On	Jul 11, 2024	GSM8KMath	—Unverified
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist	Jul 11, 2024	GSM8KMath	—Unverified
ConvNLP: Image-based AI Text Detection	Jul 9, 2024	Domain GeneralizationMath	—Unverified
Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models	Jul 9, 2024	Math	CodeCode Available
Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns?	Jul 6, 2024	Math	CodeCode Available
Smart Vision-Language Reasoners	Jul 5, 2024	MathMathematical Reasoning	CodeCode Available
Helpful assistant or fruitful facilitator? Investigating how personas affect language model behavior	Jul 2, 2024	Language ModelingLanguage Modelling	CodeCode Available
Advancing Process Verification for Large Language Models via Tree-Based Preference Learning	Jun 29, 2024	Binary ClassificationGSM8K	—Unverified
CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models	Jun 28, 2024	DiversityMath	—Unverified
ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting	Jun 28, 2024	Bilevel OptimizationInstruction Following	—Unverified
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions	Jun 27, 2024	Distractor GenerationMath	CodeCode Available
Task Oriented In-Domain Data Augmentation	Jun 24, 2024	Data AugmentationMath	—Unverified
Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions	Jun 20, 2024	Active LearningMath	—Unverified
Towards Infinite-Long Prefix in Transformer	Jun 20, 2024	Mathparameter-efficient fine-tuning	CodeCode Available
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning	Jun 20, 2024	GSM8KHeuristic Search	—Unverified
Can LLMs Reason in the Wild with Programs?	Jun 19, 2024	GSM8KMath	CodeCode Available
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever	Jun 19, 2024	MathSemantic Similarity	—Unverified
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems	Jun 18, 2024	In-Context LearningMath	—Unverified
GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation	Jun 17, 2024	Image GenerationMath	CodeCode Available
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts	Jun 17, 2024	Math	—Unverified
Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment	Jun 17, 2024	Logical ReasoningMath	—Unverified
Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning	Jun 16, 2024	BenchmarkingMath	—Unverified
ReMI: A Dataset for Reasoning with Multiple Images	Jun 13, 2024	Chart UnderstandingMath	—Unverified
CLST: Cold-Start Mitigation in Knowledge Tracing by Aligning a Generative Language Model as a Students' Knowledge Tracer	Jun 13, 2024	Domain GeneralizationKnowledge Tracing	—Unverified
Can I understand what I create? Self-Knowledge Evaluation of Large Language Models	Jun 10, 2024	Math	—Unverified
Human Learning about AI	Jun 8, 2024	Math	—Unverified
A multi-core periphery perspective: Ranking via relative centrality	Jun 6, 2024	Math	—Unverified

Show:10 25 50

← PrevPage 21 of 32Next →

No leaderboard results yet.