SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 97 papers

Title	Date	Tasks	Status	Hype	Score
Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings	Apr 24, 2019	Dialogue Evaluationvalid	—Unverified	0	0
Explaining Dialogue Evaluation Metrics using Adversarial Behavioral Analysis	Jul 1, 2022	Dialogue Evaluation	—Unverified	0	0
Improving Open-Domain Dialogue Evaluation with a Causal Inference Model	Jan 31, 2023	Causal Inferencecounterfactual	—Unverified	0	0
Enhancing the Open-Domain Dialogue Evaluation in Latent Space	Aug 1, 2021	Dialogue Evaluation	—Unverified	0	0
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified	0	0
Investigating the Impact of Pre-trained Language Models on Dialog Evaluation	Oct 5, 2021	Dialogue EvaluationOpen-Domain Dialog	—Unverified	0	0
Joint Goal Segmentation and Goal Success Prediction on Multi-Domain Conversations	Oct 1, 2022	Dialogue EvaluationMulti-Task Learning	—Unverified	0	0
DRE: An Effective Dual-Refined Method for Integrating Small and Large Language Models in Open-Domain Dialogue Evaluation	Jun 4, 2025	Dialogue Evaluationvalid	—Unverified	0	0
Learning the Human Judgment for the Automatic Evaluation of Chatbot	May 1, 2020	ChatbotDialogue Evaluation	—Unverified	0	0
LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation	May 26, 2025	Dialogue Evaluation	—Unverified	0	0

Show:10 25 50

← PrevPage 9 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified