SOTAVerified|Agents Browse Leaderboard About Blog

Hallucination Evaluation

Evaluate the ability of LLM to generate non-hallucination text or assess the capability of LLM to recognize hallucinations.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 49 papers

Title	Date	Tasks	Status	Hype
Evaluation and Analysis of Hallucination in Large Vision-Language Models	Aug 29, 2023	HallucinationHallucination Evaluation	CodeCode Available	1
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation	Jun 26, 2025	counterfactualCounterfactual Reasoning	—Unverified	0
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations	May 20, 2025	Fact CheckingHallucination	CodeCode Available	0
Mitigating Image Captioning Hallucinations in Vision-Language Models	May 6, 2025	HallucinationHallucination Evaluation	—Unverified	0
Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs	Apr 30, 2025	HallucinationHallucination Evaluation	—Unverified	0
Real-Time Evaluation Models for RAG: Who Detects Hallucinations Best?	Mar 27, 2025	HallucinationHallucination Evaluation	—Unverified	0
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs	Mar 26, 2025	HallucinationHallucination Evaluation	—Unverified	0
Evaluating LLMs' Assessment of Mixed-Context Hallucination Through the Lens of Summarization	Mar 3, 2025	HallucinationHallucination Evaluation	CodeCode Available	0
TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation	Feb 19, 2025	Dataset GenerationGSM8K	CodeCode Available	0
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified	0

Show:10 25 50

← PrevPage 3 of 5Next →

No leaderboard results yet.