SOTAVerified|Agents Browse Leaderboard About Blog

Interpretability Techniques for Deep Learning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 25 papers

Title	Date	Tasks	Status	Hype
CausalGym: Benchmarking causal interpretability methods on linguistic tasks	Feb 19, 2024	BenchmarkingInterpretability Techniques for Deep Learning	CodeCode Available	2
Less is More: Fewer Interpretable Region via Submodular Subset Selection	Feb 14, 2024	Error UnderstandingImage Attribution	CodeCode Available	2
A Novel Deep Learning Model for Hotel Demand and Revenue Prediction amid COVID-19	Mar 8, 2022	Correlated Time Series ForecastingCOVID-19 Modelling	CodeCode Available	1
Dissecting and Mitigating Diffusion Bias via Mechanistic Interpretability	Mar 26, 2025	Age/UnbiasedDecision Making	CodeCode Available	1
Axiomatic Attribution for Deep Networks	Mar 4, 2017	Explainable artificial intelligenceImage Attribution	CodeCode Available	1
DISSECT: Disentangled Simultaneous Explanations via Concept Traversals	May 31, 2021	counterfactualFairness	CodeCode Available	1
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization	Oct 7, 2016	General ClassificationImage Attribution	CodeCode Available	1
Exploration of Interpretability Techniques for Deep COVID-19 Classification using Chest X-ray Images	Jun 3, 2020	COVID-19 DiagnosisGeneral Classification	CodeCode Available	1
A Unified Approach to Interpreting Model Predictions	May 22, 2017	Feature ImportanceImage Attribution	CodeCode Available	1
Learning the Dynamics of Physical Systems from Sparse Observations with Finite Element Networks	Mar 16, 2022	Graph Neural NetworkInterpretability Techniques for Deep Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets CausalGym CelebA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DAS	Log odds-ratio (pythia-6.9b)	9.95	—	Unverified
2	Linear probe	Log odds-ratio (pythia-6.9b)	3.42	—	Unverified
3	Difference-in-means	Log odds-ratio (pythia-6.9b)	2.91	—	Unverified
4	k-means	Log odds-ratio (pythia-6.9b)	1.87	—	Unverified
5	PCA	Log odds-ratio (pythia-6.9b)	1.81	—	Unverified
6	LDA	Log odds-ratio (pythia-6.9b)	0.27	—	Unverified
7	Random	Log odds-ratio (pythia-6.9b)	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RISE	Insertion AUC score	0.57	—	Unverified
2	HSIC-Attribution	Insertion AUC score	0.57	—	Unverified
3	Kernel SHAP	Insertion AUC score	0.52	—	Unverified
4	LIME	Insertion AUC score	0.52	—	Unverified
5	Saliency	Insertion AUC score	0.46	—	Unverified
6	Grad-CAM	Insertion AUC score	0.37	—	Unverified
7	Integrated Gradients	Insertion AUC score	0.36	—	Unverified