Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1701–1725 of 5548 papers

Title	Date	Tasks	Status
EuroCon: Benchmarking Parliament Deliberation for Political Consensus Finding	May 26, 2025	Benchmarking	—Unverified
TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs	May 26, 2025	BenchmarkingLarge Language Model	—Unverified
Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs	May 26, 2025	BenchmarkingFault localization	CodeCode Available
Calibrating Pre-trained Language Classifiers on LLM-generated Noisy Labels via Iterative Refinement	May 26, 2025	Benchmarking	CodeCode Available
StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs	May 26, 2025	Benchmarking	—Unverified
AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare	May 26, 2025	BenchmarkingMedical Diagnosis	CodeCode Available
Beyond Specialization: Benchmarking LLMs for Transliteration of Indian Languages	May 26, 2025	BenchmarkingTransliteration	—Unverified
PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology	May 26, 2025	BenchmarkingPrognosis	—Unverified
Transformers in Protein: A Survey	May 26, 2025	BenchmarkingDrug Discovery	—Unverified
Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights	May 26, 2025	BenchmarkingQuestion Answering	CodeCode Available
A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking	May 26, 2025	BenchmarkingOptical Flow Estimation	—Unverified
Synthetic Time Series Forecasting with Transformer Architectures: Extensive Simulation Benchmarks	May 26, 2025	BenchmarkingDecision Making Under Uncertainty	CodeCode Available
FinLoRA: Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets	May 26, 2025	BenchmarkingGPU	—Unverified
AgentRecBench: Benchmarking LLM Agent-based Personalized Recommender Systems	May 26, 2025	BenchmarkingRecommendation Systems	—Unverified
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat	May 26, 2025	BenchmarkingQuestion Answering	—Unverified
SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs	May 25, 2025	BenchmarkingDiversity	—Unverified
Retrieval-Augmented Generation for Service Discovery: Chunking Strategies and Benchmarking	May 25, 2025	BenchmarkingChunking	—Unverified
Where Paths Collide: A Comprehensive Survey of Classic and Learning-Based Multi-Agent Pathfinding	May 25, 2025	BenchmarkingMulti-Agent Path Finding	—Unverified
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research	May 25, 2025	BenchmarkingInformation Retrieval	—Unverified
AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science	May 25, 2025	BenchmarkingFeature Engineering	—Unverified
EnvSDD: Benchmarking Environmental Sound Deepfake Detection	May 25, 2025	Audio Deepfake DetectionAudio Generation	—Unverified
Benchmarking Large Language Models for Cyberbullying Detection in Real-World YouTube Comments	May 25, 2025	Benchmarking	—Unverified
SPDEBench: An Extensive Benchmark for Learning Regular and Singular Stochastic PDEs	May 24, 2025	Benchmarking	CodeCode Available
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models	May 24, 2025	BenchmarkingVideo Grounding	—Unverified
Benchmarking and Rethinking Knowledge Editing for Large Language Models	May 24, 2025	Benchmarkingknowledge editing	CodeCode Available

Show:10 25 50

← PrevPage 69 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified