Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2876–2900 of 5548 papers

Title	Date	Tasks	Status
Capsule Vision 2024 Challenge: Multi-Class Abnormality Classification for Video Capsule Endoscopy	Aug 9, 2024	BenchmarkingMedical Image Analysis	CodeCode Available
h4rm3l: A language for Composable Jailbreak Attack Synthesis	Aug 9, 2024	BenchmarkingProgram Synthesis	—Unverified
FedAD-Bench: A Unified Benchmark for Federated Unsupervised Anomaly Detection in Tabular Data	Aug 8, 2024	Anomaly DetectionBenchmarking	—Unverified
SegXAL: Explainable Active Learning for Semantic Segmentation in Driving Scene Scenarios	Aug 8, 2024	Active LearningBenchmarking	—Unverified
Towards Explainable Network Intrusion Detection using Large Language Models	Aug 8, 2024	BenchmarkingIntrusion Detection	—Unverified
Soft-Hard Attention U-Net Model and Benchmark Dataset for Multiscale Image Shadow Removal	Aug 7, 2024	BenchmarkingHard Attention	—Unverified
Online Model-based Anomaly Detection in Multivariate Time Series: Taxonomy, Survey, Research Challenges and Future Directions	Aug 7, 2024	Anomaly DetectionBenchmarking	—Unverified
Benchmarking In-the-wild Multimodal Disease Recognition and A Versatile Baseline	Aug 6, 2024	Benchmarking	—Unverified
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future	Aug 5, 2024	BenchmarkingCode Generation	—Unverified
LMEMs for post-hoc analysis of HPO Benchmarking	Aug 5, 2024	BenchmarkingHyperparameter Optimization	CodeCode Available
MaterioMiner -- An ontology-based text mining dataset for extraction of process-structure-property entities	Aug 5, 2024	BenchmarkingGraph Generation	—Unverified
SPINEX-TimeSeries: Similarity-based Predictions with Explainable Neighbors Exploration for Time Series and Forecasting Problems	Aug 4, 2024	BenchmarkingComputational Efficiency	—Unverified
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified
Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations	Aug 3, 2024	BenchmarkingDeep Reinforcement Learning	—Unverified
Integrating Large Language Models and Knowledge Graphs for Extraction and Validation of Textual Test Data	Aug 3, 2024	BenchmarkingKnowledge Graphs	CodeCode Available
Visual-Inertial SLAM for Unstructured Outdoor Environments: Benchmarking the Benefits and Computational Costs of Loop Closing	Aug 3, 2024	Autonomous NavigationBenchmarking	CodeCode Available
IBB Traffic Graph Data: Benchmarking and Road Traffic Prediction Model	Aug 2, 2024	BenchmarkingFeature Engineering	—Unverified
Dissecting Dissonance: Benchmarking Large Multimodal Models Against Self-Contradictory Instructions	Aug 2, 2024	Benchmarkingmultimodal interaction	CodeCode Available
PINNs for Medical Image Analysis: A Survey	Aug 2, 2024	AnatomyBenchmarking	—Unverified
IN-Sight: Interactive Navigation through Sight	Aug 1, 2024	BenchmarkingNavigate	—Unverified
High-Quality, ROS Compatible Video Encoding and Decoding for High-Definition Datasets	Aug 1, 2024	BenchmarkingSimultaneous Localization and Mapping	CodeCode Available
KemenkeuGPT: Leveraging a Large Language Model on Indonesia's Government Financial Data and Regulations to Enhance Decision Making	Jul 31, 2024	BenchmarkingDecision Making	—Unverified
Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model	Jul 31, 2024	BenchmarkingLarge Language Model	CodeCode Available
Efficient Channel Estimation for Millimeter Wave and Terahertz Systems Enabled by Integrated Super-resolution Sensing and Communication	Jul 30, 2024	BenchmarkingSuper-Resolution	—Unverified
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models	Jul 30, 2024	BenchmarkingCode Completion	—Unverified

Show:10 25 50

← PrevPage 116 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified