Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1626–1650 of 5548 papers

Title	Date	Tasks	Status
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model	Jun 5, 2025	BenchmarkingLanguage Modeling	—Unverified
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation	Jun 5, 2025	Benchmarking	CodeCode Available
CzechLynx: A Dataset for Individual Identification and Pose Estimation of the Eurasian Lynx	Jun 5, 2025	2D Pose EstimationBenchmarking	—Unverified
Refer to Anything with Vision-Language Prompts	Jun 5, 2025	BenchmarkingGeneralized Referring Expression Segmentation	—Unverified
DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models	Jun 5, 2025	BenchmarkingDiversity	—Unverified
Benchmarking Large Language Models on Homework Assessment in Circuit Analysis	Jun 5, 2025	Benchmarking	—Unverified
HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models	Jun 4, 2025	BenchmarkingGeneral Knowledge	CodeCode Available
Knowledge-guided Contextual Gene Set Analysis Using Large Language Models	Jun 4, 2025	Benchmarking	—Unverified
MELABenchv1: Benchmarking Large Language Models against Smaller Fine-Tuned Models for Low-Resource Maltese NLP	Jun 4, 2025	BenchmarkingLanguage Modelling	—Unverified
N^2: A Unified Python Package and Test Bench for Nearest Neighbor-Based Matrix Completion	Jun 4, 2025	BenchmarkingCausal Inference	—Unverified
Generating Automotive Code: Large Language Models for Software Development and Verification in Safety-Critical Systems	Jun 4, 2025	BenchmarkingCode Generation	—Unverified
CETBench: A Novel Dataset constructed via Transformations over Programs for Benchmarking LLMs for Code-Equivalence Checking	Jun 4, 2025	BenchmarkingCode Generation	—Unverified
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale	Jun 4, 2025	BenchmarkingLanguage Modeling	—Unverified
Curse of Slicing: Why Sliced Mutual Information is a Deceptive Measure of Statistical Dependence	Jun 4, 2025	Benchmarking	—Unverified
A Kernel-Based Approach for Accurate Steady-State Detection in Performance Time Series	Jun 4, 2025	BenchmarkingIrregular Time Series	CodeCode Available
Seeing in the Dark: Benchmarking Egocentric 3D Vision with the Oxford Day-and-Night Dataset	Jun 4, 2025	3D geometryBenchmarking	—Unverified
FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models	Jun 3, 2025	BenchmarkingDomain Adaptation	—Unverified
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation	Jun 3, 2025	BenchmarkingStyle Transfer	—Unverified
Tactile MNIST: Benchmarking Active Tactile Perception	Jun 3, 2025	BenchmarkingScene Understanding	—Unverified
AMLgentex: Mobilizing Data-Driven Research to Combat Money Laundering	Jun 3, 2025	Benchmarking	—Unverified
FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes	Jun 3, 2025	BenchmarkingFeature Engineering	CodeCode Available
CVC: A Large-Scale Chinese Value Rule Corpus for Value Alignment of Large Language Models	Jun 2, 2025	Benchmarking	CodeCode Available
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists	Jun 2, 2025	BenchmarkingForm	—Unverified
FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents	Jun 2, 2025	BenchmarkingForm	—Unverified
ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code	Jun 2, 2025	BenchmarkingCode Generation	—Unverified

Show:10 25 50

← PrevPage 66 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified