Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4276–4300 of 5548 papers

Title	Date	Tasks	Status
MSAMSum: Towards Benchmarking Multi-lingual Dialogue Summarization	May 1, 2022	Benchmarkingdialogue summary	CodeCode Available
MMCoQA: Conversational Question Answering over Text, Tables, and Images	May 1, 2022	BenchmarkingConversational Question Answering	CodeCode Available
Fantastic Questions and Where to Find Them: FairytaleQA – An Authentic Dataset for Narrative Comprehension	May 1, 2022	BenchmarkingQuestion Answering	—Unverified
To Find Waldo You Need Contextual Cues: Debiasing Who’s Waldo	May 1, 2022	BenchmarkingPerson-centric Visual Grounding	CodeCode Available
Benchmarking Post-Hoc Interpretability Approaches for Transformer-based Misogyny Detection	May 1, 2022	BenchmarkingHate Speech Detection	CodeCode Available
Answer Consolidation: Formulation and Benchmarking	Apr 29, 2022	BenchmarkingQuestion Answering	CodeCode Available
Foundations for learning from noisy quantum experiments	Apr 28, 2022	Benchmarking	—Unverified
Watts: Infrastructure for Open-Ended Learning	Apr 28, 2022	Benchmarking	CodeCode Available
A Collection of Quality Diversity Optimization Problems Derived from Hyperparameter Optimization of Machine Learning Models	Apr 28, 2022	BenchmarkingDiversity	CodeCode Available
Benchmarking the Hooke-Jeeves Method, MTS-LS1, and BSrr on the Large-scale BBOB Function Set	Apr 28, 2022	Benchmarking	CodeCode Available
Deeper Insights into the Robustness of ViTs towards Common Corruptions	Apr 26, 2022	BenchmarkingData Augmentation	—Unverified
Causal Reasoning Meets Visual Representation Learning: A Prospective Study	Apr 26, 2022	BenchmarkingOut-of-Distribution Generalization	—Unverified
Label Anchored Contrastive Learning for Language Understanding	Apr 26, 2022	BenchmarkingContrastive Learning	—Unverified
Transformation-Interaction-Rational Representation for Symbolic Regression	Apr 25, 2022	BenchmarkingForm	CodeCode Available
MOLE: Digging Tunnels Through Multimodal Multi-Objective Landscapes	Apr 22, 2022	Benchmarking	CodeCode Available
Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics	Apr 21, 2022	AttributeBenchmarking	—Unverified
Changepoint Detection in Noisy Data Using a Novel Residuals Permutation-Based Method (RESPERM): Benchmarking and Application to Single Trial ERPs	Apr 21, 2022	BenchmarkingChange Point Detection	CodeCode Available
Learning to Fold Real Garments with One Arm: A Case Study in Cloud-Based Robotics Research	Apr 21, 2022	BenchmarkingDiversity	—Unverified
Multi-label classification for biomedical literature: an overview of the BioCreative VII LitCovid Track for COVID-19 literature topic annotations	Apr 20, 2022	ArticlesBenchmarking	—Unverified
Analyzing the Impact of Undersampling on the Benchmarking and Configuration of Evolutionary Algorithms	Apr 20, 2022	BenchmarkingEvolutionary Algorithms	—Unverified
Label Efficient Regularization and Propagation for Graph Node Classification	Apr 19, 2022	AttributeBenchmarking	—Unverified
Radio Galaxy Zoo: Using semi-supervised learning to leverage large unlabelled data-sets for radio galaxy classification under data-set shift	Apr 19, 2022	BenchmarkingClassification	CodeCode Available
Benchmarking Domain Generalization on EEG-based Emotion Recognition	Apr 18, 2022	BenchmarkingDomain Adaptation	—Unverified
SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos	Apr 14, 2022	BenchmarkingMultiple Object Tracking	—Unverified
From Environmental Sound Representation to Robustness of 2D CNN Models Against Adversarial Attacks	Apr 14, 2022	Adversarial AttackAdversarial Robustness	—Unverified

Show:10 25 50

← PrevPage 172 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified