Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3275 of 5548 papers

Title	Date	Tasks	Status
Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells	Mar 29, 2024	Benchmarking	—Unverified
IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context	Mar 29, 2024	BenchmarkingSentence	CodeCode Available
Are Large Language Models Good at Utility Judgments?	Mar 28, 2024	Answer GenerationBenchmarking	CodeCode Available
Benchmarking Image Transformers for Prostate Cancer Detection from Ultrasound Data	Mar 27, 2024	BenchmarkingCancer Classification	—Unverified
GPTs and Language Barrier: A Cross-Lingual Legal QA Examination	Mar 26, 2024	ArticlesBenchmarking	—Unverified
Benchmarking Video Frame Interpolation	Mar 25, 2024	BenchmarkingComputational Efficiency	—Unverified
NSINA: A News Corpus for Sinhala	Mar 25, 2024	ArticlesBenchmarking	CodeCode Available
DISL: Fueling Research with A Large Dataset of Solidity Smart Contracts	Mar 25, 2024	Benchmarking	—Unverified
On the Fragility of Active Learners for Text Classification	Mar 23, 2024	Active LearningBenchmarking	CodeCode Available
TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring	Mar 23, 2024	BenchmarkingText to SQL	CodeCode Available
Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation	Mar 22, 2024	BenchmarkingDeep Reinforcement Learning	—Unverified
Transactive Local Energy Markets Enable Community-Level Resource Coordination Using Individual Rewards	Mar 22, 2024	Benchmarkingenergy management	—Unverified
Subjective Quality Assessment of Compressed Tone-Mapped High Dynamic Range Videos	Mar 22, 2024	BenchmarkingTone Mapping	—Unverified
Broadening the Scope of Neural Network Potentials through Direct Inclusion of Additional Molecular Attributes	Mar 22, 2024	Benchmarking	—Unverified
ChatGPT Alternative Solutions: Large Language Models Survey	Mar 21, 2024	BenchmarkingChatbot	—Unverified
Embarrassingly Simple Scribble Supervision for 3D Medical Segmentation	Mar 19, 2024	BenchmarkingSegmentation	—Unverified
MARTA: a model for the automatic phonemic grouping of the parkinsonian speech	Mar 19, 2024	BenchmarkingClassification	CodeCode Available
Benchmarking Badminton Action Recognition with a New Fine-Grained Dataset	Mar 19, 2024	Action RecognitionBenchmarking	—Unverified
Leveraging Spatial and Semantic Feature Extraction for Skin Cancer Diagnosis with Capsule Networks and Graph Neural Networks	Mar 18, 2024	BenchmarkingClassification	—Unverified
A Sober Look at the Robustness of CLIPs to Spurious Features	Mar 18, 2024	Benchmarking	—Unverified
Benchmarking the Robustness of UAV Tracking Against Common Corruptions	Mar 18, 2024	Benchmarking	CodeCode Available
OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety	Mar 18, 2024	BenchmarkingMathematical Reasoning	—Unverified
Granular Change Accuracy: A More Accurate Performance Metric for Dialogue State Tracking	Mar 17, 2024	BenchmarkingDialogue State Tracking	—Unverified
FlowMind: Automatic Workflow Generation with LLMs	Mar 17, 2024	BenchmarkingQuestion Answering	—Unverified
Depression Detection on Social Media with Large Language Models	Mar 16, 2024	BenchmarkingDepression Detection	—Unverified

Show:10 25 50

← PrevPage 131 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified