Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2426–2450 of 5548 papers

Title	Date	Tasks	Status
A Classification Benchmark for Artificial Intelligence Detection of Laryngeal Cancer from Patient Voice	Dec 20, 2024	BenchmarkingDiagnostic	CodeCode Available
Pitfalls of topology-aware image segmentation	Dec 19, 2024	BenchmarkingImage Segmentation	—Unverified
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge	Dec 18, 2024	BenchmarkingWorld Knowledge	CodeCode Available
Generation of Large District Heating System Models Using Open-Source Data and Tools: An Exemplary Workflow	Dec 18, 2024	Benchmarking	—Unverified
Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning	Dec 18, 2024	BenchmarkingPosition	—Unverified
DateLogicQA: Benchmarking Temporal Biases in Large Language Models	Dec 17, 2024	Benchmarking	CodeCode Available
Selective Shot Learning for Code Explanation	Dec 17, 2024	Benchmarking	—Unverified
Benchmarking and Understanding Compositional Relational Reasoning of LLMs	Dec 17, 2024	BenchmarkingRelational Reasoning	CodeCode Available
C-FedRAG: A Confidential Federated Retrieval-Augmented Generation System	Dec 17, 2024	BenchmarkingRAG	—Unverified
AI PERSONA: Towards Life-long Personalization of LLMs	Dec 17, 2024	Benchmarking	—Unverified
A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI	Dec 17, 2024	BenchmarkingChatbot	—Unverified
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models	Dec 17, 2024	Benchmarking	—Unverified
ShiftedBronzes: Benchmarking and Analysis of Domain Fine-Grained Classification in Open-World Settings	Dec 17, 2024	Benchmarking	—Unverified
F-Bench: Rethinking Human Preference Evaluation Metrics for Benchmarking Face Generation, Customization, and Restoration	Dec 17, 2024	BenchmarkingFace Generation	—Unverified
SciFaultyQA: Benchmarking LLMs on Faulty Science Question Detection with a GAN-Inspired Approach to Synthetic Dataset Generation	Dec 16, 2024	BenchmarkingDataset Generation	CodeCode Available
PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension	Dec 16, 2024	BenchmarkingImage Captioning	—Unverified
QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs	Dec 16, 2024	BenchmarkingCommon Sense Reasoning	CodeCode Available
How Different AI Chatbots Behave? Benchmarking Large Language Models in Behavioral Economics Games	Dec 16, 2024	BenchmarkingChatbot	—Unverified
RoLargeSum: A Large Dialect-Aware Romanian News Dataset for Summary, Headline, and Keyword Generation	Dec 15, 2024	ArticlesBenchmarking	CodeCode Available
Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation	Dec 15, 2024	3D GenerationBenchmarking	—Unverified
Sequence-Level Leakage Risk of Training Data in Large Language Models	Dec 15, 2024	Benchmarking	—Unverified
NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries	Dec 14, 2024	BenchmarkingEmbodied Question Answering	—Unverified
CRS Arena: Crowdsourced Benchmarking of Conversational Recommender Systems	Dec 13, 2024	BenchmarkingRecommendation Systems	—Unverified
Benchmarking Table Comprehension In The Wild	Dec 13, 2024	BenchmarkingQuestion Answering	—Unverified
Benchmarking Linguistic Diversity of Large Language Models	Dec 13, 2024	BenchmarkingDiversity	CodeCode Available

Show:10 25 50

← PrevPage 98 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified