SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3811–3820 of 5548 papers

Title	Date	Tasks	Status	Hype
Knowing-how & Knowing-that: A New Task for Machine Comprehension of User Manuals	Jun 7, 2023	BenchmarkingMachine Reading Comprehension	CodeCode Available	0
Improved statistical benchmarking of digital pathology models using pairwise frames evaluation	Jun 7, 2023	BenchmarkingClassification	—Unverified	0
Benchmarking Robustness of AI-Enabled Multi-sensor Fusion Systems: Challenges and Opportunities	Jun 6, 2023	BenchmarkingDepth Completion	—Unverified	0
Applying Standards to Advance Upstream & Downstream Ethics in Large Language Models	Jun 6, 2023	BenchmarkingEthics	—Unverified	0
Explainable AI using expressive Boolean formulas	Jun 6, 2023	BenchmarkingExplainable Artificial Intelligence (XAI)	—Unverified	0
Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL Tagging	Jun 6, 2023	BenchmarkingSentence	—Unverified	0
Benchmarking Middle-Trained Language Models for Neural Search	Jun 5, 2023	BenchmarkingLanguage Modeling	—Unverified	0
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition	Jun 5, 2023	Arabic Speech RecognitionBenchmarking	—Unverified	0
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning	Jun 4, 2023	BenchmarkingContrastive Learning	—Unverified	0
EfficientSRFace: An Efficient Network with Super-Resolution Enhancement for Accurate Face Detection	Jun 4, 2023	BenchmarkingFace Detection	—Unverified	0

Show:10 25 50

← PrevPage 382 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified