Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2276–2300 of 5548 papers

Title	Date	Tasks	Status	Hype
Environment-aware UAV Communications: CKM Construction and Predictive Beamforming	Apr 18, 2024	Benchmarking	—Unverified	0
How to Benchmark Vision Foundation Models for Semantic Segmentation?	Apr 18, 2024	BenchmarkingDecoder	CodeCode Available	1
LongEmbed: Extending Embedding Models for Long Context Retrieval	Apr 18, 2024	4k8k	CodeCode Available	2
Neural Network Approach for Non-Markovian Dissipative Dynamics of Many-Body Open Quantum Systems	Apr 17, 2024	BenchmarkingQuantization	—Unverified	0
Mapping Violence: Developing an Extensive Framework to Build a Bangla Sectarian Expression Dataset from Social Media Interactions	Apr 17, 2024	Benchmarking	—Unverified	0
VBR: A Vision Benchmark in Rome	Apr 17, 2024	Autonomous VehiclesBenchmarking	CodeCode Available	2
Benchmarking changepoint detection algorithms on cardiac time series	Apr 16, 2024	BenchmarkingChange Point Detection	—Unverified	0
White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs	Apr 16, 2024	BenchmarkingLanguage Modelling	—Unverified	0
Data Collection of Real-Life Knowledge Work in Context: The RLKWiC Dataset	Apr 16, 2024	BenchmarkingManagement	—Unverified	0
Iterated Invariant Extended Kalman Filter (IterIEKF)	Apr 16, 2024	Benchmarking	—Unverified	0
Neuromorphic Vision-based Motion Segmentation with Graph Transformer Neural Network	Apr 16, 2024	BenchmarkingMotion Segmentation	—Unverified	0
Revealing data leakage in protein interaction benchmarks	Apr 16, 2024	Benchmarking	CodeCode Available	2
Second Edition FRCSyn Challenge at CVPR 2024: Face Recognition Challenge in the Era of Synthetic Data	Apr 16, 2024	BenchmarkingFace Recognition	CodeCode Available	1
LLM Evaluators Recognize and Favor Their Own Generations	Apr 15, 2024	Benchmarking	—Unverified	0
Feature selection in linear SVMs via a hard cardinality constraint: a scalable SDP decomposition approach	Apr 15, 2024	Benchmarkingfeature selection	—Unverified	0
A Universal Protocol to Benchmark Camera Calibration for Sports	Apr 15, 2024	BenchmarkingCamera Calibration	—Unverified	0
A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting	Apr 15, 2024	Benchmarking	CodeCode Available	0
nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation	Apr 15, 2024	BenchmarkingImage Segmentation	CodeCode Available	1
A Large-Scale Evaluation of Speech Foundation Models	Apr 15, 2024	Benchmarking	—Unverified	0
MMInA: Benchmarking Multihop Multimodal Internet Agents	Apr 15, 2024	Benchmarking	—Unverified	0
MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems	Apr 15, 2024	BenchmarkingCode Generation	CodeCode Available	1
Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations	Apr 15, 2024	BenchmarkingBias Detection	CodeCode Available	1
A Review and Efficient Implementation of Scene Graph Generation Metrics	Apr 15, 2024	BenchmarkingGraph Generation	CodeCode Available	1
AMPCliff: quantitative definition and benchmarking of activity cliffs in antimicrobial peptides	Apr 15, 2024	BenchmarkingProtein Language Model	CodeCode Available	0
RoofDiffusion: Constructing Roofs from Severely Corrupted Point Data via Diffusion	Apr 14, 2024	BenchmarkingData Augmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 92 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified