Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3201–3250 of 5548 papers

Title	Date	Tasks	Status
Environment-aware UAV Communications: CKM Construction and Predictive Beamforming	Apr 18, 2024	Benchmarking	—Unverified
Neural Network Approach for Non-Markovian Dissipative Dynamics of Many-Body Open Quantum Systems	Apr 17, 2024	BenchmarkingQuantization	—Unverified
Mapping Violence: Developing an Extensive Framework to Build a Bangla Sectarian Expression Dataset from Social Media Interactions	Apr 17, 2024	Benchmarking	—Unverified
Benchmarking changepoint detection algorithms on cardiac time series	Apr 16, 2024	BenchmarkingChange Point Detection	—Unverified
Iterated Invariant Extended Kalman Filter (IterIEKF)	Apr 16, 2024	Benchmarking	—Unverified
White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs	Apr 16, 2024	BenchmarkingLanguage Modelling	—Unverified
Data Collection of Real-Life Knowledge Work in Context: The RLKWiC Dataset	Apr 16, 2024	BenchmarkingManagement	—Unverified
Neuromorphic Vision-based Motion Segmentation with Graph Transformer Neural Network	Apr 16, 2024	BenchmarkingMotion Segmentation	—Unverified
MMInA: Benchmarking Multihop Multimodal Internet Agents	Apr 15, 2024	Benchmarking	—Unverified
A Universal Protocol to Benchmark Camera Calibration for Sports	Apr 15, 2024	BenchmarkingCamera Calibration	—Unverified
AMPCliff: quantitative definition and benchmarking of activity cliffs in antimicrobial peptides	Apr 15, 2024	BenchmarkingProtein Language Model	CodeCode Available
LLM Evaluators Recognize and Favor Their Own Generations	Apr 15, 2024	Benchmarking	—Unverified
Feature selection in linear SVMs via a hard cardinality constraint: a scalable SDP decomposition approach	Apr 15, 2024	Benchmarkingfeature selection	—Unverified
A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting	Apr 15, 2024	Benchmarking	CodeCode Available
A Large-Scale Evaluation of Speech Foundation Models	Apr 15, 2024	Benchmarking	—Unverified
From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation	Apr 14, 2024	BenchmarkingDiversity	CodeCode Available
Practical Guidelines for Cell Segmentation Models Under Optical Aberrations in Microscopy	Apr 12, 2024	BenchmarkingCell Segmentation	—Unverified
Exploring the Decentraland Economy: Multifaceted Parcel Attributes, Key Insights, and Benchmarking	Apr 11, 2024	AttributeBenchmarking	—Unverified
GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models	Apr 10, 2024	BenchmarkingDenoising	—Unverified
Certifying almost all quantum states with few single-qubit measurements	Apr 10, 2024	AllBenchmarking	—Unverified
DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs	Apr 10, 2024	Benchmarkingknowledge editing	CodeCode Available
WebCode2M: A Real-World Dataset for Code Generation from Webpage Designs	Apr 9, 2024	BenchmarkingCode Generation	—Unverified
From Protoscience to Epistemic Monoculture: How Benchmarking Set the Stage for the Deep Learning Revolution	Apr 9, 2024	Benchmarking	—Unverified
Accel-NASBench: Sustainable Benchmarking for Accelerator-Aware NAS	Apr 9, 2024	BenchmarkingNeural Architecture Search	CodeCode Available
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering	Apr 8, 2024	BenchmarkingMedical Question Answering	—Unverified
Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level	Apr 8, 2024	Benchmarking	CodeCode Available
HOEG: A New Approach for Object-Centric Predictive Process Monitoring	Apr 8, 2024	BenchmarkingGraph Neural Network	CodeCode Available
EFSA: Towards Event-Level Financial Sentiment Analysis	Apr 8, 2024	ArticlesBenchmarking	CodeCode Available
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models	Apr 7, 2024	Benchmarkingknowledge editing	CodeCode Available
A Comparison of Cryptocurrency Volatility-benchmarking New and Mature Asset Classes	Apr 7, 2024	Benchmarking	—Unverified
Multicalibration for Confidence Scoring in LLMs	Apr 6, 2024	BenchmarkingQuestion Answering	—Unverified
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics	Apr 6, 2024	BenchmarkingHallucination	CodeCode Available
SDFR: Synthetic Data for Face Recognition Competition	Apr 6, 2024	BenchmarkingFace Recognition	—Unverified
Enhancing Video Summarization with Context Awareness	Apr 6, 2024	BenchmarkingInformativeness	CodeCode Available
GNNBENCH: Fair and Productive Benchmarking for Single-GPU GNN System	Apr 5, 2024	BenchmarkingGPU	—Unverified
Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)	Apr 5, 2024	Benchmarking	CodeCode Available
Dynamic Risk Assessment Methodology with an LDM-based System for Parking Scenarios	Apr 5, 2024	Benchmarking	—Unverified
Benchmarking and Improving Compositional Generalization of Multi-aspect Controllable Text Generation	Apr 5, 2024	AttributeBenchmarking	CodeCode Available
Benchmarking ChatGPT on Algorithmic Reasoning	Apr 4, 2024	Benchmarking	CodeCode Available
Schroedinger's Threshold: When the AUC doesn't predict Accuracy	Apr 4, 2024	Benchmarking	CodeCode Available
Benchmarking Parameter Control Methods in Differential Evolution for Mixed-Integer Black-Box Optimization	Apr 4, 2024	Benchmarking	CodeCode Available
DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior	Apr 4, 2024	BenchmarkingImage Restoration	—Unverified
A Comparative Analysis of Word-Level Metric Differential Privacy: Benchmarking The Privacy-Utility Trade-off	Apr 4, 2024	Benchmarking	CodeCode Available
NL2KQL: From Natural Language to Kusto Query	Apr 3, 2024	BenchmarkingNatural Language Queries	—Unverified
PATCH! Psychometrics-AssisTed BenCHmarking of Large Language Models against Human Populations: A Case Study of Proficiency in 8th Grade Mathematics	Apr 2, 2024	Benchmarking	CodeCode Available
On the reduction of Linear Parameter-Varying State-Space models	Apr 2, 2024	BenchmarkingDimensionality Reduction	—Unverified
Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach	Apr 2, 2024	BenchmarkingCommon Sense Reasoning	—Unverified
IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations	Apr 1, 2024	BenchmarkingMath	—Unverified
Diffusion-Driven Domain Adaptation for Generating 3D Molecules	Apr 1, 2024	BenchmarkingDecoder	—Unverified
SpiralMLP: A Lightweight Vision MLP Architecture	Mar 31, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 65 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified