Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4201–4225 of 5548 papers

Title	Date	Tasks	Status
Towards responsible AI for education: Hybrid human-AI to confront the Elephant in the room	Apr 22, 2025	BenchmarkingFairness	—Unverified
Towards Robust and Generalizable Gerchberg Saxton based Physics Inspired Neural Networks for Computer Generated Holography: A Sensitivity Analysis Framework	Apr 30, 2025	BenchmarkingLearning Theory	—Unverified
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models	Jun 19, 2024	BenchmarkingOpen-Domain Question Answering	—Unverified
Towards Sentiment Analysis of Tobacco Products’ Usage in Social Media	Sep 1, 2021	BenchmarkingSentiment Analysis	—Unverified
Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems	May 21, 2025	BenchmarkingMath	—Unverified
Towards Stable 3D Object Detection	Jul 5, 2024	3D Object DetectionAutonomous Driving	—Unverified
Towards Toxic Positivity Detection	Jul 1, 2022	BenchmarkingClassification	—Unverified
Towards Trustworthy Deception Detection: Benchmarking Model Robustness across Domains, Modalities, and Languages	Apr 23, 2021	BenchmarkingDeception Detection	—Unverified
Towards Universal Learning-based Model for Cardiac Image Reconstruction: Summary of the CMRxRecon2024 Challenge	Mar 5, 2025	BenchmarkingImage Reconstruction	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models	May 21, 2025	BenchmarkingPrompt Engineering	—Unverified
Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks	Jul 27, 2022	Adversarial RobustnessBenchmarking	—Unverified
TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning	Apr 11, 2025	BenchmarkingLanguage Modeling	—Unverified
Tracking Everything in Robotic-Assisted Surgery	Sep 29, 2024	Benchmarking	—Unverified
Training Mixed-Domain Translation Models via Federated Learning	May 3, 2022	BenchmarkingFederated Learning	—Unverified
Training neural mapping schemes for satellite altimetry with simulation data	Sep 19, 2023	Benchmarking	—Unverified
Training Transformers with Enforced Lipschitz Constants	Jul 17, 2025	Benchmarking	—Unverified
Trajectory Normalized Gradients for Distributed Optimization	Jan 24, 2019	BenchmarkingDistributed Optimization	—Unverified
TRAM: Benchmarking Temporal Reasoning for Large Language Models	Oct 2, 2023	BenchmarkingFew-Shot Learning	—Unverified
Transactive Local Energy Markets Enable Community-Level Resource Coordination Using Individual Rewards	Mar 22, 2024	Benchmarkingenergy management	—Unverified
TransBench: Benchmarking Machine Translation for Industrial-Scale Applications	May 20, 2025	BenchmarkingMachine Translation	—Unverified
Transfer of Knowledge through Reverse Annealing: A Preliminary Analysis of the Benefits and What to Share	Jan 27, 2025	BenchmarkingTransfer Learning	—Unverified
Transformed Subspace Clustering	Dec 10, 2019	BenchmarkingClustering	—Unverified
Transformers in Protein: A Survey	May 26, 2025	BenchmarkingDrug Discovery	—Unverified
Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends	Oct 5, 2024	BenchmarkingChart Understanding	—Unverified

Show:10 25 50

← PrevPage 169 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified