Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1951–2000 of 5548 papers

Title	Date	Tasks	Status
OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation	Apr 18, 2025	Benchmarking	—Unverified
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models	Apr 17, 2025	BenchmarkingMath	—Unverified
Featuremetric benchmarking: Quantum computer benchmarks based on circuit features	Apr 17, 2025	Benchmarking	—Unverified
ALT: A Python Package for Lightweight Feature Representation in Time Series Classification	Apr 17, 2025	BenchmarkingTime Series	—Unverified
Local Data Quantity-Aware Weighted Averaging for Federated Learning with Dishonest Clients	Apr 17, 2025	BenchmarkingFederated Learning	—Unverified
Benchmarking Multi-National Value Alignment for Large Language Models	Apr 17, 2025	Benchmarking	—Unverified
Benchmarking LLM-based Relevance Judgment Methods	Apr 17, 2025	BenchmarkingOpen-Domain Question Answering	CodeCode Available
Enhancing Explainability and Reliable Decision-Making in Particle Swarm Optimization through Communication Topologies	Apr 17, 2025	BenchmarkingDecision Making	—Unverified
Continual Learning Strategies for 3D Engineering Regression Problems: A Benchmarking Study	Apr 16, 2025	BenchmarkingContinual Learning	CodeCode Available
Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions	Apr 16, 2025	BenchmarkingLanguage Modeling	—Unverified
Benchmarking Audio Deepfake Detection Robustness in Real-world Communication Scenarios	Apr 16, 2025	Audio Deepfake DetectionBenchmarking	—Unverified
Causality-enhanced Decision-Making for Autonomous Mobile Robots in Dynamic Environments	Apr 16, 2025	BenchmarkingCausal Inference	CodeCode Available
Power Line Communication vs. Talkative Power Conversion: A Benchmarking Study	Apr 16, 2025	Benchmarking	—Unverified
pix2pockets: Shot Suggestions in 8-Ball Pool from a Single Image in the Wild	Apr 16, 2025	Benchmarkingobject-detection	—Unverified
Benchmarking Mutual Information-based Loss Functions in Federated Learning	Apr 16, 2025	BenchmarkingFairness	—Unverified
E2E Parking Dataset: An Open Benchmark for End-to-End Autonomous Parking	Apr 15, 2025	BenchmarkingPosition	—Unverified
Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation	Apr 15, 2025	BenchmarkingQuestion Answering	—Unverified
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives	Apr 15, 2025	Benchmarking	—Unverified
GaSLight: Gaussian Splats for Spatially-Varying Lighting in HDR	Apr 15, 2025	Benchmarking	—Unverified
BEACON: A Benchmark for Efficient and Accurate Counting of Subgraphs	Apr 15, 2025	BenchmarkingSubgraph Counting	—Unverified
Mamba-Based Ensemble learning for White Blood Cell Classification	Apr 15, 2025	BenchmarkingClassification	CodeCode Available
Benchmarking Vision Language Models on German Factual Data	Apr 15, 2025	Benchmarking	—Unverified
FHBench: Towards Efficient and Personalized Federated Learning for Multimodal Healthcare	Apr 15, 2025	BenchmarkingDiagnostic	CodeCode Available
Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items	Apr 15, 2025	BenchmarkingMultiple-choice	—Unverified
Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study	Apr 14, 2025	BenchmarkingGaze Estimation	CodeCode Available
COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts	Apr 14, 2025	BenchmarkingObject	—Unverified
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization	Apr 14, 2025	BenchmarkingEarth Observation	—Unverified
LMFormer: Lane based Motion Prediction Transformer	Apr 14, 2025	Autonomous DrivingBenchmarking	—Unverified
CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography	Apr 14, 2025	BenchmarkingVisual Reasoning	—Unverified
BoTTA: Benchmarking on-device Test Time Adaptation	Apr 14, 2025	BenchmarkingTest-time Adaptation	—Unverified
Benchmarking 3D Human Pose Estimation Models Under Occlusions	Apr 14, 2025	3D Human Pose EstimationBenchmarking	—Unverified
Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models	Apr 14, 2025	BenchmarkingDescriptive	—Unverified
Benchmarking Practices in LLM-driven Offensive Security: Testbeds, Metrics, and Experiment Design	Apr 14, 2025	BenchmarkingLanguage Modeling	—Unverified
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified
SortBench: Benchmarking LLMs based on their ability to sort lists	Apr 11, 2025	Benchmarking	—Unverified
TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning	Apr 11, 2025	BenchmarkingLanguage Modeling	—Unverified
Geological Inference from Textual Data using Word Embeddings	Apr 10, 2025	BenchmarkingWord Embeddings	CodeCode Available
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge	Apr 10, 2025	Adversarial RobustnessBenchmarking	CodeCode Available
Adaptive Shrinkage Estimation For Personalized Deep Kernel Regression In Modeling Brain Trajectories	Apr 10, 2025	Additive modelsBenchmarking	CodeCode Available
NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark	Apr 10, 2025	Benchmarking	CodeCode Available
Benchmarking Suite for Synthetic Aperture Radar Imagery Anomaly Detection (SARIAD) Algorithms	Apr 10, 2025	Anomaly DetectionBenchmarking	CodeCode Available
SydneyScapes: Image Segmentation for Australian Environments	Apr 10, 2025	Autonomous VehiclesBenchmarking	—Unverified
Benchmarking Multi-Organ Segmentation Tools for Multi-Parametric T1-weighted Abdominal MRI	Apr 10, 2025	BenchmarkingOrgan Segmentation	—Unverified
Benchmarking Image Embeddings for E-Commerce: Evaluating Off-the Shelf Foundation Models, Fine-Tuning Strategies and Practical Trade-offs	Apr 10, 2025	BenchmarkingContrastive Learning	—Unverified
Benchmarking Convolutional Neural Network and Graph Neural Network based Surrogate Models on a Real-World Car External Aerodynamics Dataset	Apr 9, 2025	BenchmarkingGraph Neural Network	—Unverified
Can Carbon-Aware Electric Load Shifting Reduce Emissions? An Equilibrium-Based Analysis	Apr 9, 2025	Benchmarking	—Unverified
TabKAN: Advancing Tabular Data Analysis using Kolmogorov-Arnold Network	Apr 9, 2025	BenchmarkingDeep Learning	—Unverified
RayFronts: Open-Set Semantic Ray Frontiers for Online Scene Understanding and Exploration	Apr 9, 2025	3D Semantic SegmentationBenchmarking	—Unverified
Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program	Apr 9, 2025	Benchmarking	CodeCode Available
A Roadmap for Improving Data Reliability and Sharing in Crosslinking Mass Spectrometry	Apr 9, 2025	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 40 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified