Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3026–3050 of 5548 papers

Title	Date	Tasks	Status
Ensemble random forest filter: An alternative to the ensemble Kalman filter for inverse modeling	Jul 8, 2022	Benchmarking	—Unverified
Entity Alignment For Knowledge Graphs: Progress, Challenges, and Empirical Studies	May 18, 2022	BenchmarkingEntity Alignment	—Unverified
Entity Personalized Talent Search Models with Tree Interaction Features	Feb 25, 2019	Benchmarking	—Unverified
Entropic one-class classifiers	Jul 28, 2014	Anomaly DetectionBenchmarking	—Unverified
EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models	May 18, 2024	BenchmarkingSpecificity	—Unverified
Environment-aware UAV Communications: CKM Construction and Predictive Beamforming	Apr 18, 2024	Benchmarking	—Unverified
EnvSDD: Benchmarking Environmental Sound Deepfake Detection	May 25, 2025	Audio Deepfake DetectionAudio Generation	—Unverified
EnzChemRED, a rich enzyme chemistry relation extraction dataset	Apr 22, 2024	Benchmarkingnamed-entity-recognition	—Unverified
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking	Feb 18, 2025	BenchmarkingBinary Classification	—Unverified
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection	Oct 6, 2024	BenchmarkingMathematical Reasoning	—Unverified
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit	Apr 10, 2023	BenchmarkingSimultaneous Speech-to-Text Translation	—Unverified
Establishing Reliability Metrics for Reward Models in Large Language Models	Apr 21, 2025	Benchmarking	—Unverified
Estimating Task Completion Times for Network Rollouts using Statistical Models within Partitioning-based Regression Methods	Nov 20, 2022	Benchmarkingregression	—Unverified
Estimating the Effect of Crosstalk Error on Circuit Fidelity Using Noisy Intermediate-Scale Quantum Devices	Feb 10, 2024	Benchmarking	—Unverified
Estimating transmission from genetic and epidemiological data: a metric to compare transmission trees	Sep 28, 2016	Benchmarking	—Unverified
EuroCon: Benchmarking Parliament Deliberation for Political Consensus Finding	May 26, 2025	Benchmarking	—Unverified
Europarl-ASR: A Large Corpus of Parliamentary Debates for Streaming ASR Benchmarking and Speech Data Filtering/Verbatimization	Aug 30, 2021	BenchmarkingData Augmentation	—Unverified
Evalita-LLM: Benchmarking Large Language Models on Italian	Feb 4, 2025	BenchmarkingMultiple-choice	—Unverified
Evaluating and Benchmarking Foundation Models for Earth Observation and Geospatial AI	Jun 26, 2024	BenchmarkingCrop Type Mapping	—Unverified
Evaluating Cultural and Social Awareness of LLM Web Agents	Oct 30, 2024	BenchmarkingNavigate	—Unverified
Evaluating Deep Clustering Algorithms on Non-Categorical 3D CAD Models	Apr 29, 2024	BenchmarkingClustering	—Unverified
Evaluating Financial Sentiment Analysis with Annotators Instruction Assisted Prompting: Enhancing Contextual Interpretation and Stock Prediction Accuracy	May 9, 2025	BenchmarkingSentiment Analysis	—Unverified
Evaluating Generative AI-Enhanced Content: A Conceptual Framework Using Qualitative, Quantitative, and Mixed-Methods Approaches	Nov 26, 2024	Benchmarking	—Unverified
Evaluating Generative Models for Tabular Data: Novel Metrics and Benchmarking	Apr 29, 2025	BenchmarkingIntrusion Detection	—Unverified
Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study	Aug 26, 2024	8kBenchmarking	—Unverified

Show:10 25 50

← PrevPage 122 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified