SOTAVerified|Agents Browse Leaderboard About Blog

Explanation Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 235 papers

Title	Date	Tasks	Status	Hype
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering	Nov 13, 2023	Decision MakingExplanation Generation	CodeCode Available	1
Retrieval augmentation of large language models for lay language generation	Nov 7, 2022	Explanation GenerationRetrieval	CodeCode Available	1
End-to-End Multimodal Fact-Checking and Explanation Generation: A Challenging Dataset and Models	May 25, 2022	ArticlesClaim Verification	CodeCode Available	1
EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification	Oct 15, 2023	Claim VerificationExplanation Generation	CodeCode Available	1
Explain and Predict, and then Predict Again	Jan 11, 2021	Explanation GenerationFact Verification	CodeCode Available	1
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations	Apr 5, 2022	Explanation GenerationQuestion Answering	CodeCode Available	1
CodeExp: Explanatory Code Document Generation	Nov 25, 2022	Explanation GenerationText Generation	CodeCode Available	1
A Survey on Interpretable Cross-modal Reasoning	Sep 5, 2023	Cross-Modal RetrievalDecision Making	CodeCode Available	1
Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations	Dec 8, 2022	Explanation GenerationVisual Entailment	CodeCode Available	1
Calibrating Trust of Multi-Hop Question Answering Systems with Decompositional Probes	Apr 16, 2022	Explanation GenerationMulti-hop Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 4 of 24Next →

All datasets WHOOPS!CLEVR-X e-SNLI-VE VCR VQA-X

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VLIS (Lynx)	Accuracy	80	—	Unverified
2	VLIS (LLaVA)	Accuracy	73	—	Unverified
3	Ground-truth Caption -> GPT3 (Oracle)	Human (%)	68	—	Unverified
4	Predicted Caption -> GPT3	Human (%)	33	—	Unverified
5	BLIP2 FlanT5-XXL (Fine-tuned)	Human (%)	27	—	Unverified
6	BLIP2 FlanT5-XL (Fine-tuned)	Human (%)	15	—	Unverified
7	BLIP2 FlanT5-XXL (Zero-shot)	Human (%)	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PJ-X	B4	87.4	—	Unverified
2	FM	B4	78.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X	Human Explanation Rating	85.7	—	Unverified
2	OFA-X-MT	Human Explanation Rating	80.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X-MT	Human Explanation Rating	77.3	—	Unverified
2	OFA-X	Human Explanation Rating	68.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X	Human Explanation Rating	89.5	—	Unverified
2	OFA-X-MT	Human Explanation Rating	87.8	—	Unverified