SOTAVerified|Agents Browse Leaderboard About Blog

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 97 papers

Title	Date	Tasks	Status	Hype
Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models	Apr 7, 2025	Dialogue EvaluationFairness	CodeCode Available	2
DynaEval: Unifying Turn and Dialogue Level Evaluation	Jun 2, 2021	Dialogue Evaluation	CodeCode Available	1
DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation	May 8, 2023	Contrastive LearningDensity Estimation	CodeCode Available	1
Automatic Evaluation and Moderation of Open-domain Dialogue Systems	Nov 3, 2021	ChatbotDialogue Evaluation	CodeCode Available	1
DialogBench: Evaluating LLMs as Human-like Dialogue Systems	Nov 3, 2023	Dialogue Evaluation	CodeCode Available	1
Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems	Dec 18, 2022	ChatbotDialogue Evaluation	CodeCode Available	1
Conversations Are Not Flat: Modeling the Dynamic Information Flow across Dialogue Utterances	Jun 4, 2021	ChatbotDialogue Evaluation	CodeCode Available	1
Assessing Dialogue Systems with Distribution Distances	May 6, 2021	Dialogue Evaluation	CodeCode Available	1
A Comprehensive Assessment of Dialog Evaluation Metrics	Jun 7, 2021	Dialogue EvaluationResponse Generation	CodeCode Available	1
Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian	Jun 3, 2022	Binary ClassificationDialogue Evaluation	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified