TruthfulQA

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–80 of 80 papers

Title	Date	Tasks	Status
Efficiently Deploying LLMs with Controlled Risk	Oct 3, 2024	MMLUTruthfulQA	—Unverified
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs	Sep 30, 2024	ARCDiversity	—Unverified
Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models	Sep 7, 2024	MMLUTruthfulQA	—Unverified
Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused	Aug 16, 2024	HallucinationTruthfulQA	—Unverified
LokiLM: Technical Report	Jul 10, 2024	Knowledge DistillationLanguage Modeling	—Unverified
metabench -- A Sparse Benchmark to Measure General Ability in Large Language Models	Jul 4, 2024	ARCGSM8K	CodeCode Available
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation	Jun 25, 2024	ARCBenchmarking	CodeCode Available
Steering Without Side Effects: Improving Post-Deployment Control of Language Models	Jun 21, 2024	Red TeamingTruthfulQA	CodeCode Available
Enhancing Language Model Factuality via Activation-Based Confidence Calibration and Guided Decoding	Jun 19, 2024	Language ModelingLanguage Modelling	CodeCode Available
LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models	May 31, 2024	TriviaQATruthfulQA	CodeCode Available
Multi-Reference Preference Optimization for Large Language Models	May 26, 2024	GSM8KTruthfulQA	—Unverified
Harmonic LLMs are Trustworthy	Apr 30, 2024	HallucinationTruthfulQA	—Unverified
Student Data Paradox and Curious Case of Single Student-Tutor Model: Regressive Side Effects of Training LLMs for Personalized Learning	Apr 23, 2024	ARCCommon Sense Reasoning	—Unverified
When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models	Apr 14, 2024	TruthfulQA	CodeCode Available
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics	Apr 6, 2024	BenchmarkingHallucination	CodeCode Available
PRobELM: Plausibility Ranking Evaluation for Language Models	Apr 4, 2024	Question AnsweringTruthfulQA	—Unverified
SaGE: Evaluating Moral Consistency in Large Language Models	Feb 21, 2024	Decision MakingHellaSwag	CodeCode Available
Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation	Feb 14, 2024	TruthfulQA	—Unverified
LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop	Feb 14, 2024	HallucinationTruthfulQA	—Unverified
GRATH: Gradual Self-Truthifying for Large Language Models	Jan 22, 2024	TruthfulQA	—Unverified
Reducing LLM Hallucinations using Epistemic Neural Networks	Dec 25, 2023	TruthfulQA	—Unverified
Self-Evaluation Improves Selective Generation in Large Language Models	Dec 14, 2023	Multiple-choiceTruthfulQA	—Unverified
Uncertainty-aware Language Modeling for Selective Question Answering	Nov 26, 2023	Language ModelingLanguage Modelling	—Unverified
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified
On The Truthfulness of 'Surprisingly Likely' Responses of Large Language Models	Nov 13, 2023	Language ModelingLanguage Modelling	—Unverified
Instruction Tuning with Human Curriculum	Oct 14, 2023	ARCMMLU	CodeCode Available
Semantic Consistency for Assuring Reliability of Large Language Models	Aug 17, 2023	Question AnsweringText Generation	—Unverified
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback	May 24, 2023	TriviaQATruthfulQA	CodeCode Available
Measuring Reliability of Large Language Models through Semantic Consistency	Nov 10, 2022	Text GenerationTruthfulQA	CodeCode Available
Teaching language models to support answers with verified quotes	Mar 21, 2022	Fact CheckingNatural Questions	—Unverified

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.