Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2701–2725 of 5548 papers

Title	Date	Tasks	Status
TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions	Oct 5, 2024	BenchmarkingHallucination	CodeCode Available
Implicit to Explicit Entropy Regularization: Benchmarking ViT Fine-tuning under Noisy Labels	Oct 5, 2024	Benchmarking	—Unverified
How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension	Oct 4, 2024	BenchmarkingComputational chemistry	—Unverified
PersoBench: Benchmarking Personalized Response Generation in Large Language Models	Oct 4, 2024	BenchmarkingDialogue Generation	CodeCode Available
ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities	Oct 4, 2024	Benchmarkingcounterfactual	—Unverified
Towards a Benchmark for Large Language Models for Business Process Management Tasks	Oct 4, 2024	BenchmarkingManagement	CodeCode Available
Benchmarking the Fidelity and Utility of Synthetic Relational Data	Oct 4, 2024	BenchmarkingFeature Importance	—Unverified
Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning	Oct 4, 2024	BenchmarkingUncertainty Quantification	—Unverified
Ward: Provable RAG Dataset Inference via LLM Watermarks	Oct 4, 2024	BenchmarkingRAG	—Unverified
Understanding Large Language Models in Your Pockets: Performance Study on COTS Mobile Devices	Oct 4, 2024	BenchmarkingLanguage Modeling	—Unverified
IoT-LLM: Enhancing Real-World IoT Task Reasoning with Large Language Models	Oct 3, 2024	BenchmarkingIn-Context Learning	—Unverified
MANTRA: The Manifold Triangulations Assemblage	Oct 3, 2024	Benchmarking	CodeCode Available
Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning	Oct 3, 2024	BenchmarkingLanguage Modeling	—Unverified
Repurposing Foundation Model for Generalizable Medical Time Series Classification	Oct 3, 2024	BenchmarkingDiagnostic	—Unverified
Deep learning for action spotting in association football videos	Oct 2, 2024	Action SpottingBenchmarking	—Unverified
ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving	Oct 2, 2024	BenchmarkingDocument Summarization	—Unverified
CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations	Oct 2, 2024	BenchmarkingLong Form Question Answering	—Unverified
The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs	Oct 2, 2024	BenchmarkingHallucination	—Unverified
Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description	Oct 2, 2024	BenchmarkingFacial expression generation	—Unverified
A Real Benchmark Swell Noise Dataset for Performing Seismic Data Denoising via Deep Learning	Oct 2, 2024	BenchmarkingDenoising	—Unverified
Deep Unlearn: Benchmarking Machine Unlearning	Oct 2, 2024	BenchmarkingMachine Unlearning	—Unverified
CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset	Oct 1, 2024	BenchmarkingContrastive Learning	—Unverified
FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks	Oct 1, 2024	BenchmarkingFairness	—Unverified
Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents	Oct 1, 2024	BenchmarkingConversational Question Answering	—Unverified
Match Stereo Videos via Bidirectional Alignment	Sep 30, 2024	BenchmarkingStereo Matching	—Unverified

Show:10 25 50

← PrevPage 109 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified