Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3526–3550 of 5548 papers

Title	Date	Tasks	Status
MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering	Feb 26, 2025	BenchmarkingQuestion Answering	—Unverified
MechProNet: Machine Learning Prediction of Mechanical Properties in Metal Additive Manufacturing	Aug 21, 2022	ArticlesBenchmarking	—Unverified
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models	May 22, 2025	BenchmarkingLanguage Modeling	—Unverified
Benchmarking Large Language Models on Homework Assessment in Circuit Analysis	Jun 5, 2025	Benchmarking	—Unverified
Benchmarking Large Language Models in Complex Question Answering Attribution using Knowledge Graphs	Jan 26, 2024	BenchmarkingKnowledge Graphs	—Unverified
Benchmarking Large Language Models for Cryptanalysis and Mismatched-Generalization	May 30, 2025	BenchmarkingCryptanalysis	—Unverified
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale	Jun 4, 2025	BenchmarkingLanguage Modeling	—Unverified
Benchmarking Large Language Models for Cyberbullying Detection in Real-World YouTube Comments	May 25, 2025	Benchmarking	—Unverified
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified
What can 5.17 billion regression fits tell us about artificial models of the human visual system?	Oct 12, 2021	Benchmarking	—Unverified
MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models	Jun 24, 2024	Benchmarking	—Unverified
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques	Jun 6, 2025	BenchmarkingModel Selection	—Unverified
MedBrowseComp: Benchmarking Medical Deep Research and Computer Use	May 20, 2025	Benchmarking	—Unverified
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking	Dec 2, 2024	BenchmarkingDecision Making	—Unverified
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation	Oct 21, 2023	BenchmarkingLanguage Model Evaluation	—Unverified
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering	Apr 8, 2024	BenchmarkingMedical Question Answering	—Unverified
Knowledge-guided Contextual Gene Set Analysis Using Large Language Models	Jun 4, 2025	Benchmarking	—Unverified
MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine	May 12, 2023	Benchmarking	—Unverified
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models	May 16, 2025	BenchmarkingDecision Making	—Unverified
MediaEval 2018: Predicting Media Memorability Task	Jul 3, 2018	BenchmarkingMemorization	—Unverified
Benchmarking Large Language Models for Handwritten Text Recognition	Mar 19, 2025	BenchmarkingHandwritten Text Recognition	—Unverified
MedMeshCNN -- Enabling MeshCNN for Medical Surface Models	Sep 10, 2020	BenchmarkingSegmentation	—Unverified
Benchmarking large language models for materials synthesis: the case of atomic layer deposition	Dec 13, 2024	BenchmarkingHallucination	—Unverified
Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents	Oct 1, 2024	BenchmarkingConversational Question Answering	—Unverified
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding	Jan 30, 2025	BenchmarkingDecision Making	—Unverified

Show:10 25 50

← PrevPage 142 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified