SOTAVerified|Agents Browse Leaderboard About Blog

Hallucination Evaluation

Evaluate the ability of LLM to generate non-hallucination text or assess the capability of LLM to recognize hallucinations.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–49 of 49 papers

Title	Date	Tasks	Status
Real-Time Evaluation Models for RAG: Who Detects Hallucinations Best?	Mar 27, 2025	HallucinationHallucination Evaluation	—Unverified
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs	Mar 26, 2025	HallucinationHallucination Evaluation	—Unverified
Evaluating LLMs' Assessment of Mixed-Context Hallucination Through the Lens of Summarization	Mar 3, 2025	HallucinationHallucination Evaluation	CodeCode Available
TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation	Feb 19, 2025	Dataset GenerationGSM8K	CodeCode Available
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified
DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine	Nov 14, 2024	FormHallucination	CodeCode Available
DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark	Nov 5, 2024	Data AugmentationHallucination	CodeCode Available
Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models	Oct 30, 2024	HallucinationHallucination Evaluation	CodeCode Available
A Survey of Hallucination in Large Visual Language Models	Oct 20, 2024	HallucinationHallucination Evaluation	—Unverified
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models	Oct 13, 2024	HallucinationHallucination Evaluation	CodeCode Available
TLDR: Token-Level Detective Reward Model for Large Vision Language Models	Oct 7, 2024	HallucinationHallucination Evaluation	—Unverified
Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization	Sep 22, 2024	HallucinationHallucination Evaluation	CodeCode Available
FIHA: Autonomous Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs	Sep 20, 2024	HallucinationHallucination Evaluation	—Unverified
GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework	Jul 15, 2024	HallucinationHallucination Evaluation	—Unverified
Lynx: An Open Source Hallucination Evaluation Model	Jul 11, 2024	HallucinationHallucination Evaluation	—Unverified
DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation	Jun 13, 2024	BenchmarkingHallucination	CodeCode Available
HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation	Jun 11, 2024	HallucinationHallucination Evaluation	CodeCode Available
CHARP: Conversation History AwaReness Probing for Knowledge-grounded Dialogue Systems	May 24, 2024	DiagnosticHallucination	—Unverified
TextSquare: Scaling up Text-Centric Visual Instruction Tuning	Apr 19, 2024	HallucinationHallucination Evaluation	—Unverified
Can We Catch the Elephant? A Survey of the Evolvement of Hallucination Evaluation on Natural Language Generation	Apr 18, 2024	HallucinationHallucination Evaluation	—Unverified
Exploring and Evaluating Hallucinations in LLM-Powered Code Generation	Apr 1, 2024	Code GenerationHallucination	—Unverified
Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models	Feb 24, 2024	HallucinationHallucination Evaluation	—Unverified
Do Androids Know They're Only Dreaming of Electric Sheep?	Dec 28, 2023	HallucinationHallucination Evaluation	—Unverified
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks	Oct 19, 2023	HallucinationHallucination Evaluation	—Unverified

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.