SOTAVerified|Agents Browse Leaderboard About Blog

Explanation Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 235 papers

Title	Date	Tasks	Status	Hype	Score
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models	May 22, 2023	Conversational RecommendationExplanation Generation	CodeCode Available	1	5
Retrieval augmentation of large language models for lay language generation	Nov 7, 2022	Explanation GenerationRetrieval	CodeCode Available	1	5
Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations	Dec 8, 2022	Explanation GenerationVisual Entailment	CodeCode Available	1	5
HealthFC: Verifying Health Claims with Evidence-Based Medical Fact-Checking	Sep 15, 2023	Claim VerificationExplanation Generation	CodeCode Available	1	5
End-to-End Multimodal Fact-Checking and Explanation Generation: A Challenging Dataset and Models	May 25, 2022	ArticlesClaim Verification	CodeCode Available	1	5
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations	Apr 5, 2022	Explanation GenerationQuestion Answering	CodeCode Available	1	5
CodeExp: Explanatory Code Document Generation	Nov 25, 2022	Explanation GenerationText Generation	CodeCode Available	1	5
A Survey on Interpretable Cross-modal Reasoning	Sep 5, 2023	Cross-Modal RetrievalDecision Making	CodeCode Available	1	5
Explainable Automated Fact-Checking for Public Health Claims	Oct 19, 2020	Explanation GenerationFact Checking	CodeCode Available	1	5
Advisable Learning for Self-Driving Vehicles by Internalizing Observation-to-Action Rules	Jun 1, 2020	Explanation GenerationSemantic Segmentation	CodeCode Available	0	5

Show:10 25 50

← PrevPage 4 of 24Next →

All datasets WHOOPS!CLEVR-X e-SNLI-VE VCR VQA-X

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VLIS (Lynx)	Accuracy	80	—	Unverified
2	VLIS (LLaVA)	Accuracy	73	—	Unverified
3	Ground-truth Caption -> GPT3 (Oracle)	Human (%)	68	—	Unverified
4	Predicted Caption -> GPT3	Human (%)	33	—	Unverified
5	BLIP2 FlanT5-XXL (Fine-tuned)	Human (%)	27	—	Unverified
6	BLIP2 FlanT5-XL (Fine-tuned)	Human (%)	15	—	Unverified
7	BLIP2 FlanT5-XXL (Zero-shot)	Human (%)	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PJ-X	B4	87.4	—	Unverified
2	FM	B4	78.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X	Human Explanation Rating	85.7	—	Unverified
2	OFA-X-MT	Human Explanation Rating	80.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X-MT	Human Explanation Rating	77.3	—	Unverified
2	OFA-X	Human Explanation Rating	68.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OFA-X	Human Explanation Rating	89.5	—	Unverified
2	OFA-X-MT	Human Explanation Rating	87.8	—	Unverified