Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1751–1800 of 5548 papers

Title	Date	Tasks	Status
Edge-First Language Model Inference: Models, Metrics, and Tradeoffs	May 22, 2025	BenchmarkingLanguage Modeling	—Unverified
Can AI Read Between The Lines? Benchmarking LLMs On Financial Nuance	May 22, 2025	BenchmarkingPrompt Engineering	—Unverified
DailyQA: A Benchmark to Evaluate Web Retrieval Augmented LLMs Based on Capturing Real-World Changes	May 22, 2025	BenchmarkingRAG	—Unverified
BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research	May 22, 2025	Benchmarking	—Unverified
BAGELS: Benchmarking the Automated Generation and Extraction of Limitations from Scholarly Text	May 22, 2025	BenchmarkingRAG	—Unverified
Learning collective multi-cellular dynamics from temporal scRNA-seq via a transformer-enhanced Neural SDE	May 22, 2025	BenchmarkingTime Series	CodeCode Available
Zero-Shot Hyperspectral Pansharpening Using Hysteresis-Based Tuning for Spectral Quality Control	May 22, 2025	BenchmarkingPansharpening	CodeCode Available
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models	May 22, 2025	BenchmarkingDiagnostic	—Unverified
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks	May 22, 2025	BenchmarkingSpatial Reasoning	—Unverified
When Safety Detectors Aren't Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques	May 22, 2025	Benchmarking	—Unverified
Experimental robustness benchmark of quantum neural network on a superconducting quantum processor	May 22, 2025	Adversarial AttackAdversarial Robustness	—Unverified
Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI	May 21, 2025	Benchmarking	—Unverified
UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning	May 21, 2025	BenchmarkingImitation Learning	—Unverified
Benchmarking Chest X-ray Diagnosis Models Across Multinational Datasets	May 21, 2025	BenchmarkingDiagnostic	—Unverified
UrduFactCheck: An Agentic Fact-Checking Framework for Urdu with Evidence Boosting and Benchmarking	May 21, 2025	BenchmarkingClaim Verification	CodeCode Available
Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs	May 21, 2025	BenchmarkingQuestion Answering	CodeCode Available
Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory	May 21, 2025	BenchmarkingLanguage Modeling	CodeCode Available
SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation	May 21, 2025	BenchmarkingCode Generation	—Unverified
InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation	May 21, 2025	BenchmarkingRAG	—Unverified
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models	May 21, 2025	BenchmarkingReinforcement Learning (RL)	—Unverified
Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models	May 21, 2025	BenchmarkingPrompt Engineering	—Unverified
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering	May 21, 2025	BenchmarkingLanguage Modeling	CodeCode Available
Oral Imaging for Malocclusion Issues Assessments: OMNI Dataset, Deep Learning Baselines and Benchmarking	May 21, 2025	BenchmarkingDiagnostic	CodeCode Available
VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models	May 21, 2025	Benchmarking	CodeCode Available
AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals	May 21, 2025	BenchmarkingChatbot	—Unverified
Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems	May 21, 2025	BenchmarkingMath	—Unverified
A Risk Taxonomy for Evaluating AI-Powered Psychotherapy Agents	May 21, 2025	BenchmarkingDecompensation	—Unverified
Guidelines for the Quality Assessment of Energy-Aware NAS Benchmarks	May 21, 2025	BenchmarkingGPU	—Unverified
NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction	May 21, 2025	BenchmarkingHallucination	—Unverified
NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation	May 20, 2025	Autonomous NavigationBenchmarking	—Unverified
ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations	May 20, 2025	Benchmarking	—Unverified
Benchmarking data encoding methods in Quantum Machine Learning	May 20, 2025	BenchmarkingQuantum Machine Learning	—Unverified
MedBrowseComp: Benchmarking Medical Deep Research and Computer Use	May 20, 2025	Benchmarking	—Unverified
DECASTE: Unveiling Caste Stereotypes in Large Language Models through Multi-Dimensional Bias Analysis	May 20, 2025	BenchmarkingFairness	—Unverified
Explaining Unreliable Perception in Automated Driving: A Fuzzy-based Monitoring Approach	May 20, 2025	Benchmarking	—Unverified
TransBench: Benchmarking Machine Translation for Industrial-Scale Applications	May 20, 2025	BenchmarkingMachine Translation	—Unverified
A Data-Driven Method to Identify IBRs with Dominant Participation in Sub-Synchronous Oscillations	May 20, 2025	Benchmarking	—Unverified
SlangDIT: Benchmarking LLMs in Interpretative Slang Translation	May 20, 2025	BenchmarkingSentence	—Unverified
LLM-based Evaluation Policy Extraction for Ecological Modeling	May 20, 2025	BenchmarkingLarge Language Model	—Unverified
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI	May 20, 2025	Anomaly LocalizationBenchmarking	—Unverified
SurvUnc: A Meta-Model Based Uncertainty Quantification Framework for Survival Analysis	May 20, 2025	BenchmarkingModel Optimization	CodeCode Available
SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas	May 20, 2025	BenchmarkingLogical Reasoning	—Unverified
Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning	May 19, 2025	Benchmarking	CodeCode Available
LEXam: Benchmarking Legal Reasoning on 340 Law Exams	May 19, 2025	BenchmarkingLegal Reasoning	—Unverified
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models	May 19, 2025	BenchmarkingRed Teaming	—Unverified
Graph Alignment for Benchmarking Graph Neural Networks and Learning Positional Encodings	May 19, 2025	BenchmarkingCombinatorial Optimization	—Unverified
Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference	May 19, 2025	BenchmarkingCausal Inference	—Unverified
SzCORE as a benchmark: report from the seizure detection challenge at the 2025 AI in Epilepsy and Neurological Disorders Conference	May 19, 2025	BenchmarkingEEG	—Unverified
Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning	May 19, 2025	Benchmarking	—Unverified
A Comprehensive Benchmarking Platform for Deep Generative Models in Molecular Design	May 19, 2025	BenchmarkingDrug Discovery	—Unverified

Show:10 25 50

← PrevPage 36 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified