Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4426–4450 of 5548 papers

Title	Date	Tasks	Status
TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models	Apr 29, 2025	BenchmarkingDataset Generation	CodeCode Available
BenchENAS: A Benchmarking Platform for Evolutionary Neural Architecture Search	Dec 1, 2022	BenchmarkingGPU	CodeCode Available
Knowing-how & Knowing-that: A New Task for Machine Comprehension of User Manuals	Jun 7, 2023	BenchmarkingMachine Reading Comprehension	CodeCode Available
TFW2V: An Enhanced Document Similarity Method for the Morphologically Rich Finnish Language	Dec 23, 2021	BenchmarkingClustering	CodeCode Available
Can Tree Based Approaches Surpass Deep Learning in Anomaly Detection? A Benchmarking Study	Feb 11, 2024	Anomaly DetectionBenchmarking	CodeCode Available
LANTERN: A Machine Learning Framework for Lipid Nanoparticle Transfection Efficiency Prediction	Jul 3, 2025	Benchmarking	CodeCode Available
Laparoscopic Image Desmoking Using the U-Net with New Loss Function and Integrated Differentiable Wiener Filter	May 27, 2025	Benchmarking	CodeCode Available
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing	Feb 14, 2025	BenchmarkingRAG	CodeCode Available
Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench	Apr 1, 2025	Benchmarking	CodeCode Available
Recurrent Quantum Neural Networks	Jun 25, 2020	BenchmarkingBIG-bench Machine Learning	CodeCode Available
KhabarChin: Automatic Detection of Important News in the Persian Language	Dec 6, 2023	ArticlesBenchmarking	CodeCode Available
Can geometric combinatorics improve RNA branching predictions?	Mar 26, 2025	Benchmarking	CodeCode Available
BenchENAS: A Benchmarking Platform for Evolutionary Neural Architecture Search	Aug 9, 2021	BenchmarkingGPU	CodeCode Available
Can a single neuron learn predictive uncertainty?	Jun 7, 2021	BenchmarkingConformal Prediction	CodeCode Available
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering	May 21, 2025	BenchmarkingLanguage Modeling	CodeCode Available
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges	Mar 11, 2025	Benchmarking	CodeCode Available
Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework	Jun 8, 2023	Benchmarking	CodeCode Available
KArSL: Arabic Sign Language Database	Jan 1, 2021	BenchmarkingSign Language Recognition	CodeCode Available
Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim Evidence Reasoning	Jun 9, 2025	BenchmarkingDiagnostic	CodeCode Available
JavaBench: A Benchmark of Object-Oriented Code Generation for Evaluating Large Language Models	Jun 10, 2024	BenchmarkingCode Generation	CodeCode Available
TGB-Seq Benchmark: Challenging Temporal GNNs with Complex Sequential Dynamics	Feb 5, 2025	BenchmarkingLink Prediction	CodeCode Available
Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning	May 7, 2024	BenchmarkingContrastive Learning	CodeCode Available
KamNet: An Integrated Spatiotemporal Deep Neural Network for Rare Event Search in KamLAND-Zen	Mar 3, 2022	Benchmarking	CodeCode Available
Joint Multi-Scale Tone Mapping and Denoising for HDR Image Enhancement	Mar 16, 2023	BenchmarkingDemosaicking	CodeCode Available
Ref-Long: Benchmarking the Long-context Referencing Capability of Long-context Language Models	Jul 13, 2025	AttributeBenchmarking	CodeCode Available

Show:10 25 50

← PrevPage 178 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified