Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3001–3050 of 5548 papers

Title	Date	Tasks	Status
Empirical Analysis of Privacy-Fairness-Accuracy Trade-offs in Federated Learning: A Step Towards Responsible AI	Mar 20, 2025	BenchmarkingFairness	—Unverified
Empirical Analysis of the Dynamic Binary Value Problem with IOHprofiler	Apr 24, 2024	Benchmarking	—Unverified
Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices	Jun 6, 2024	BenchmarkingRAG	—Unverified
Enabling Accelerators for Graph Computing	Dec 16, 2023	Benchmarking	—Unverified
Automated Machine Learning: A Case Study on Non-Intrusive Appliance Load Monitoring	Mar 6, 2022	AutoMLBayesian Optimization	—Unverified
Enabling Design Methodologies and Future Trends for Edge AI: Specialization and Co-design	Mar 25, 2021	BenchmarkingEdge-computing	—Unverified
EndoSparse: Real-Time Sparse View Synthesis of Endoscopic Scenes using Gaussian Splatting	Jul 1, 2024	3D ReconstructionBenchmarking	—Unverified
1-D Convlutional Neural Networks for the Analysis of Pupil Size Variations in Scotopic Conditions	Feb 6, 2020	BenchmarkingBinary Classification	—Unverified
End-to-End Neural Ranking for eCommerce Product Search: an application of task models and textual embeddings	Jun 19, 2018	Benchmarking	—Unverified
Energy-Conscious LLM Decoding: Impact of Text Generation Strategies on GPU Energy Consumption	Feb 17, 2025	BenchmarkingCode Summarization	—Unverified
Energy & Force Regression on DFT Trajectories is Not Enough for Universal Machine Learning Interatomic Potentials	Feb 5, 2025	Benchmarking	—Unverified
Energy Management in Storage-Augmented, Grid-Connected Prosumer Buildings and Neighbourhoods Using a Modified Simulated Annealing Optimization	Mar 28, 2015	Benchmarkingenergy management	—Unverified
Enhanced Multiobjective Evolutionary Algorithm based on Decomposition for Solving the Unit Commitment Problem	Oct 16, 2014	Benchmarking	—Unverified
Enhancing Distractor Generation for Multiple-Choice Questions with Retrieval Augmented Pretraining and Knowledge Graph Integration	Jun 19, 2024	BenchmarkingDistractor Generation	—Unverified
Enhancing Explainability and Reliable Decision-Making in Particle Swarm Optimization through Communication Topologies	Apr 17, 2025	BenchmarkingDecision Making	—Unverified
Enhancing Hand Palm Motion Gesture Recognition by Eliminating Reference Frame Bias via Frame-Invariant Similarity Measures	Mar 14, 2025	BenchmarkingGesture Recognition	—Unverified
Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement	Feb 24, 2025	Benchmarkingfeature selection	—Unverified
Enhancing Multi-Label Emotion Analysis and Corresponding Intensities for Ethiopian Languages	Mar 24, 2025	BenchmarkingDecision Making	—Unverified
Enhancing Navigation Benchmarking and Perception Data Generation for Row-based Crops in Simulation	Jun 27, 2023	Autonomous NavigationBenchmarking	—Unverified
Enhancing Post-Hoc Explanation Benchmark Reliability for Image Classification	Nov 29, 2023	BenchmarkingDecision Making	—Unverified
Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG	Sep 12, 2024	BenchmarkingQuestion Answering	—Unverified
Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries	Nov 7, 2024	Benchmarking	—Unverified
Enhancing TCR-Peptide Interaction Prediction with Pretrained Language Models and Molecular Representations	Apr 22, 2025	BenchmarkingFew-Shot Learning	—Unverified
Enhancing Trust in LLMs: Algorithms for Comparing and Interpreting LLMs	Jun 4, 2024	BenchmarkingFairness	—Unverified
EnronQA: Towards Personalized RAG over Private Documents	May 1, 2025	BenchmarkingMemorization	—Unverified
Ensemble random forest filter: An alternative to the ensemble Kalman filter for inverse modeling	Jul 8, 2022	Benchmarking	—Unverified
Entity Alignment For Knowledge Graphs: Progress, Challenges, and Empirical Studies	May 18, 2022	BenchmarkingEntity Alignment	—Unverified
Entity Personalized Talent Search Models with Tree Interaction Features	Feb 25, 2019	Benchmarking	—Unverified
Entropic one-class classifiers	Jul 28, 2014	Anomaly DetectionBenchmarking	—Unverified
EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models	May 18, 2024	BenchmarkingSpecificity	—Unverified
Environment-aware UAV Communications: CKM Construction and Predictive Beamforming	Apr 18, 2024	Benchmarking	—Unverified
EnvSDD: Benchmarking Environmental Sound Deepfake Detection	May 25, 2025	Audio Deepfake DetectionAudio Generation	—Unverified
EnzChemRED, a rich enzyme chemistry relation extraction dataset	Apr 22, 2024	Benchmarkingnamed-entity-recognition	—Unverified
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking	Feb 18, 2025	BenchmarkingBinary Classification	—Unverified
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection	Oct 6, 2024	BenchmarkingMathematical Reasoning	—Unverified
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit	Apr 10, 2023	BenchmarkingSimultaneous Speech-to-Text Translation	—Unverified
Establishing Reliability Metrics for Reward Models in Large Language Models	Apr 21, 2025	Benchmarking	—Unverified
Estimating Task Completion Times for Network Rollouts using Statistical Models within Partitioning-based Regression Methods	Nov 20, 2022	Benchmarkingregression	—Unverified
Estimating the Effect of Crosstalk Error on Circuit Fidelity Using Noisy Intermediate-Scale Quantum Devices	Feb 10, 2024	Benchmarking	—Unverified
Estimating transmission from genetic and epidemiological data: a metric to compare transmission trees	Sep 28, 2016	Benchmarking	—Unverified
EuroCon: Benchmarking Parliament Deliberation for Political Consensus Finding	May 26, 2025	Benchmarking	—Unverified
Europarl-ASR: A Large Corpus of Parliamentary Debates for Streaming ASR Benchmarking and Speech Data Filtering/Verbatimization	Aug 30, 2021	BenchmarkingData Augmentation	—Unverified
Evalita-LLM: Benchmarking Large Language Models on Italian	Feb 4, 2025	BenchmarkingMultiple-choice	—Unverified
Evaluating and Benchmarking Foundation Models for Earth Observation and Geospatial AI	Jun 26, 2024	BenchmarkingCrop Type Mapping	—Unverified
Evaluating Cultural and Social Awareness of LLM Web Agents	Oct 30, 2024	BenchmarkingNavigate	—Unverified
Evaluating Deep Clustering Algorithms on Non-Categorical 3D CAD Models	Apr 29, 2024	BenchmarkingClustering	—Unverified
Evaluating Financial Sentiment Analysis with Annotators Instruction Assisted Prompting: Enhancing Contextual Interpretation and Stock Prediction Accuracy	May 9, 2025	BenchmarkingSentiment Analysis	—Unverified
Evaluating Generative AI-Enhanced Content: A Conceptual Framework Using Qualitative, Quantitative, and Mixed-Methods Approaches	Nov 26, 2024	Benchmarking	—Unverified
Evaluating Generative Models for Tabular Data: Novel Metrics and Benchmarking	Apr 29, 2025	BenchmarkingIntrusion Detection	—Unverified
Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study	Aug 26, 2024	8kBenchmarking	—Unverified

Show:10 25 50

← PrevPage 61 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified