Hallucination Evaluation

Evaluate the ability of LLM to generate non-hallucination text or assess the capability of LLM to recognize hallucinations.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 49 papers

Title	Date	Tasks	Status	Hype
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation	Jun 26, 2025	counterfactualCounterfactual Reasoning	—Unverified	0
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality	Jun 24, 2025	HallucinationHallucination Evaluation	CodeCode Available	1
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations	May 20, 2025	Fact CheckingHallucination	CodeCode Available	0
Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards	May 7, 2025	BenchmarkingHallucination	CodeCode Available	1
Mitigating Image Captioning Hallucinations in Vision-Language Models	May 6, 2025	HallucinationHallucination Evaluation	—Unverified	0
Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs	Apr 30, 2025	HallucinationHallucination Evaluation	—Unverified	0
Real-Time Evaluation Models for RAG: Who Detects Hallucinations Best?	Mar 27, 2025	HallucinationHallucination Evaluation	—Unverified	0
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs	Mar 26, 2025	HallucinationHallucination Evaluation	—Unverified	0
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation	Mar 25, 2025	HallucinationHallucination Evaluation	CodeCode Available	1
Evaluating LLMs' Assessment of Mixed-Context Hallucination Through the Lens of Summarization	Mar 3, 2025	HallucinationHallucination Evaluation	CodeCode Available	0
TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation	Feb 19, 2025	Dataset GenerationGSM8K	CodeCode Available	0
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified	0
DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine	Nov 14, 2024	FormHallucination	CodeCode Available	0
DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark	Nov 5, 2024	Data AugmentationHallucination	CodeCode Available	0
Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models	Oct 30, 2024	HallucinationHallucination Evaluation	CodeCode Available	0
A Survey of Hallucination in Large Visual Language Models	Oct 20, 2024	HallucinationHallucination Evaluation	—Unverified	0
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models	Oct 13, 2024	HallucinationHallucination Evaluation	CodeCode Available	0
TLDR: Token-Level Detective Reward Model for Large Vision Language Models	Oct 7, 2024	HallucinationHallucination Evaluation	—Unverified	0
Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization	Sep 22, 2024	HallucinationHallucination Evaluation	CodeCode Available	0
FIHA: Autonomous Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs	Sep 20, 2024	HallucinationHallucination Evaluation	—Unverified	0
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering	Sep 19, 2024	HallucinationHallucination Evaluation	CodeCode Available	1
Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models	Aug 18, 2024	AttributeHallucination	CodeCode Available	1
Enhancing LLM's Cognition via Structurization	Jul 23, 2024	HallucinationHallucination Evaluation	CodeCode Available	1
GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework	Jul 15, 2024	HallucinationHallucination Evaluation	—Unverified	0
Lynx: An Open Source Hallucination Evaluation Model	Jul 11, 2024	HallucinationHallucination Evaluation	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.