SOTAVerified|Agents Browse Leaderboard About Blog

TruthfulQA

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–70 of 80 papers

Title	Date	Tasks	Status	Hype
Unsupervised Elicitation of Language Models	Jun 11, 2025	GSM8KTruthfulQA	—Unverified	0
When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR)	Apr 1, 2025	Language ModelingLanguage Modelling	—Unverified	0
Reducing LLM Hallucinations using Epistemic Neural Networks	Dec 25, 2023	TruthfulQA	—Unverified	0
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics	Apr 6, 2024	BenchmarkingHallucination	CodeCode Available	0
NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models	Oct 11, 2024	Multiple-choiceTruthfulQA	CodeCode Available	0
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation	Jun 25, 2024	ARCBenchmarking	CodeCode Available	0
metabench -- A Sparse Benchmark to Measure General Ability in Large Language Models	Jul 4, 2024	ARCGSM8K	CodeCode Available	0
Multi-Agent Reinforcement Learning with Focal Diversity Optimization	Feb 6, 2025	DiversityMulti-agent Reinforcement Learning	CodeCode Available	0
SaGE: Evaluating Moral Consistency in Large Language Models	Feb 21, 2024	Decision MakingHellaSwag	CodeCode Available	0
LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models	May 31, 2024	TriviaQATruthfulQA	CodeCode Available	0

Show:10 25 50

← PrevPage 7 of 8Next →

No leaderboard results yet.