SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1411–1420 of 5548 papers

Title	Date	Tasks	Status	Hype
Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training	Oct 28, 2024	BenchmarkingLanguage Modeling	—Unverified	0
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning	Oct 28, 2024	Benchmarkingreinforcement-learning	CodeCode Available	2
NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates	Oct 28, 2024	Benchmarking	CodeCode Available	0
LLM-initialized Differentiable Causal Discovery	Oct 28, 2024	BenchmarkingCausal Discovery	—Unverified	0
CODES: Benchmarking Coupled ODE Surrogates	Oct 28, 2024	BenchmarkingUncertainty Quantification	CodeCode Available	0
CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants	Oct 28, 2024	Benchmarking	CodeCode Available	0
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?	Oct 28, 2024	BenchmarkingQuestion Answering	CodeCode Available	0
Hierarchical Knowledge Graph Construction from Images for Scalable E-Commerce	Oct 28, 2024	Benchmarkinggraph construction	—Unverified	0
BongLLaMA: LLaMA for Bangla Language	Oct 28, 2024	BenchmarkingData Augmentation	—Unverified	0
SPICEPilot: Navigating SPICE Code Generation and Simulation with AI Guidance	Oct 27, 2024	BenchmarkingCode Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 142 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified