SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 97 papers

Title	Date	Tasks	Status	Hype
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified	0
Dialogue Evaluation with Offline Reinforcement Learning	Sep 2, 2022	Dialogue EvaluationOffline RL	—Unverified	0
ACUTE-EVAL: Improved Dialogue Evaluation with Optimized Questions and Multi-turn Comparisons	Sep 6, 2019	Dialogue Evaluation	—Unverified	0
MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation	May 27, 2025	Dialogue Evaluation	—Unverified	0
Learning the Human Judgment for the Automatic Evaluation of Chatbot	May 1, 2020	ChatbotDialogue Evaluation	—Unverified	0
DCH-2: A Parallel Customer-Helpdesk Dialogue Corpus with Distributions of Annotators' Labels	Apr 18, 2021	Dialogue EvaluationMachine Translation	—Unverified	0
Joint Goal Segmentation and Goal Success Prediction on Multi-Domain Conversations	Oct 1, 2022	Dialogue EvaluationMulti-Task Learning	—Unverified	0
LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation	May 26, 2025	Dialogue Evaluation	—Unverified	0
Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents	Jan 12, 2022	Dialogue EvaluationSensitivity	—Unverified	0
Improving Open-Domain Dialogue Evaluation with a Causal Inference Model	Jan 31, 2023	Causal Inferencecounterfactual	—Unverified	0

Show:10 25 50

← PrevPage 4 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified