Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2151–2175 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Reasoning Robustness in Large Language Models	Mar 6, 2025	BenchmarkingMath	—Unverified
Assumed Identities: Quantifying Gender Bias in Machine Translation of Gender-Ambiguous Occupational Terms	Mar 6, 2025	BenchmarkingMachine Translation	—Unverified
ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions	Mar 6, 2025	BenchmarkingHumanEval	CodeCode Available
Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets	Mar 6, 2025	BenchmarkingDataset Generation	—Unverified
Benchmarking Dynamic SLO Compliance in Distributed Computing Continuum Systems	Mar 5, 2025	BenchmarkingCPU	CodeCode Available
GNNMerge: Merging of GNN Models Without Accessing Training Data	Mar 5, 2025	BenchmarkingComputational Efficiency	CodeCode Available
Towards Universal Learning-based Model for Cardiac Image Reconstruction: Summary of the CMRxRecon2024 Challenge	Mar 5, 2025	BenchmarkingImage Reconstruction	—Unverified
AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks	Mar 5, 2025	Benchmarkinggraph construction	CodeCode Available
Optimizing open-domain question answering with graph-based retrieval augmented generation	Mar 4, 2025	BenchmarkingLanguage Modeling	—Unverified
A2Perf: Real-World Autonomous Agents Benchmark	Mar 4, 2025	BenchmarkingCombinatorial Optimization	—Unverified
Evaluation of Architectural Synthesis Using Generative AI	Mar 4, 2025	Benchmarking	—Unverified
Technical report of a DMD-based Characterization Method for Vision Sensors	Mar 4, 2025	BenchmarkingDataset Generation	—Unverified
Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics	Mar 3, 2025	BenchmarkingSpoken Dialogue Systems	—Unverified
MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages	Mar 3, 2025	Benchmarking	CodeCode Available
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models	Mar 3, 2025	BenchmarkingInformation Retrieval	—Unverified
Multi-Agent Reinforcement Learning with Long-Term Performance Objectives for Service Workforce Optimization	Mar 3, 2025	BenchmarkingDecision Making	—Unverified
FunBench: Benchmarking Fundus Reading Skills of MLLMs	Mar 2, 2025	AnatomyBenchmarking	—Unverified
MAPS: Multi-Fidelity AI-Augmented Photonic Simulation and Inverse Design Infrastructure	Mar 2, 2025	Benchmarking	—Unverified
Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks	Mar 2, 2025	BenchmarkingChatbot	—Unverified
A Multi-Labeled Dataset for Indonesian Discourse: Examining Toxicity, Polarization, and Demographics Information	Mar 1, 2025	Benchmarking	—Unverified
Large Language Model-Based Benchmarking Experiment Settings for Evolutionary Multi-Objective Optimization	Feb 28, 2025	BenchmarkingLanguage Modeling	—Unverified
ProBench: Benchmarking Large Language Models in Competitive Programming	Feb 28, 2025	AttributeBenchmarking	—Unverified
Solar Multimodal Transformer: Intraday Solar Irradiance Predictor using Public Cameras and Time Series	Feb 28, 2025	BenchmarkingSolar Irradiance Forecasting	—Unverified
NeuroMorse: A Temporally Structured Dataset For Neuromorphic Computing	Feb 28, 2025	Benchmarking	CodeCode Available
PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice	Feb 28, 2025	BenchmarkingDiagnostic	—Unverified

Show:10 25 50

← PrevPage 87 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified