SOTAVerified|Agents Browse Leaderboard About Blog

Explanation Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 235 papers

Title	Date	Tasks	Status	Hype
Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector	Mar 26, 2025	Binary ClassificationDeepFake Detection	CodeCode Available	2
MACRec: a Multi-Agent Collaboration Framework for Recommendation	Feb 23, 2024	Conversational RecommendationDecision Making	CodeCode Available	2
Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?	Apr 29, 2024	Answer GenerationBenchmarking	CodeCode Available	1
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond	Mar 15, 2024	Explanation GenerationImage Generation	CodeCode Available	1
XplainLLM: A Knowledge-Augmented Dataset for Reliable Grounded Explanations in LLMs	Nov 15, 2023	Decision MakingDecoder	CodeCode Available	1
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering	Nov 13, 2023	Decision MakingExplanation Generation	CodeCode Available	1
VLIS: Unimodal Language Models Guide Multimodal Language Generation	Oct 15, 2023	Caption GenerationExplanation Generation	CodeCode Available	1
EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification	Oct 15, 2023	Claim VerificationExplanation Generation	CodeCode Available	1
LLM4Vis: Explainable Visualization Recommendation using ChatGPT	Oct 11, 2023	Data VisualizationExplanation Generation	CodeCode Available	1
Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation	Sep 15, 2023	Explanation GenerationFact Checking	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 24Next →

All datasets WHOOPS!CLEVR-X e-SNLI-VE VCR VQA-X

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VLIS (Lynx)	Accuracy	80	—	Unverified
2	VLIS (LLaVA)	Accuracy	73	—	Unverified
3	Ground-truth Caption -> GPT3 (Oracle)	Human (%)	68	—	Unverified
4	Predicted Caption -> GPT3	Human (%)	33	—	Unverified
5	BLIP2 FlanT5-XXL (Fine-tuned)	Human (%)	27	—	Unverified
6	BLIP2 FlanT5-XL (Fine-tuned)	Human (%)	15	—	Unverified
7	BLIP2 FlanT5-XXL (Zero-shot)	Human (%)	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PJ-X	B4	87.4	—	Unverified
2	FM	B4	78.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X	Human Explanation Rating	85.7	—	Unverified
2	OFA-X-MT	Human Explanation Rating	80.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X-MT	Human Explanation Rating	77.3	—	Unverified
2	OFA-X	Human Explanation Rating	68.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X	Human Explanation Rating	89.5	—	Unverified
2	OFA-X-MT	Human Explanation Rating	87.8	—	Unverified