Human Judgment Classification

A task where an algorithm judges which sample is better in accordance with human judgment.

Papers

Showing 1–2 of 2 papers

Title	Date	Tasks	Status	Hype
Mutual Information Divergence: A Unified Metric for Multimodal Generative Models	May 25, 2022	Hallucination Pair-wise Detection (1-ref)Hallucination Pair-wise Detection (4-ref)	CodeCode Available	1
CLIPScore: A Reference-free Evaluation Metric for Image Captioning	Apr 18, 2021	Hallucination Pair-wise Detection (1-ref)Hallucination Pair-wise Detection (4-ref)	CodeCode Available	1

Show:10 25 50

#	Model	Metric	Claimed	Verified	Status
1	MID	Mean Accuracy	85.2	—	Unverified
2	RefCLIP-S	Mean Accuracy	83.1	—	Unverified
3	CLIP-S	Mean Accuracy	80.7	—	Unverified