SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1161–1170 of 5548 papers

Title	Date	Tasks	Status	Hype
Continual Learning with Foundation Models: An Empirical Study of Latent Replay	Apr 30, 2022	BenchmarkingContinual Learning	CodeCode Available	1
A global analysis of metrics used for measuring performance in natural language processing	Apr 25, 2022	BenchmarkingMachine Translation	CodeCode Available	1
NICO++: Towards Better Benchmarking for Domain Generalization	Apr 17, 2022	BenchmarkingDomain Generalization	CodeCode Available	1
Stress-Testing Point Cloud Registration on Automotive LiDAR	Apr 16, 2022	Autonomous DrivingBenchmarking	CodeCode Available	1
Deep learning model solves change point detection for multiple change types	Apr 15, 2022	BenchmarkingChange Point Detection	CodeCode Available	1
Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization	Apr 13, 2022	BenchmarkingDeepFake Detection	CodeCode Available	1
Data Splits and Metrics for Method Benchmarking on Surgical Action Triplet Datasets	Apr 11, 2022	Action Triplet RecognitionBenchmarking	CodeCode Available	1
BioRED: A Rich Biomedical Relation Extraction Dataset	Apr 8, 2022	BenchmarkingBinary Relation Extraction	CodeCode Available	1
The Moral Integrity Corpus: A Benchmark for Ethical Dialogue Systems	Apr 6, 2022	AttributeBenchmarking	CodeCode Available	1
Dynatask: A Framework for Creating Dynamic AI Benchmark Tasks	Apr 5, 2022	Benchmarking	CodeCode Available	1

Show:10 25 50

← PrevPage 117 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified