SOTAVerified|Agents Browse Leaderboard About Blog

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 97 papers

Title	Date	Tasks	Status	Hype	Score
Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models	Apr 7, 2025	Dialogue EvaluationFairness	CodeCode Available	2	5
DynaEval: Unifying Turn and Dialogue Level Evaluation	Jun 2, 2021	Dialogue Evaluation	CodeCode Available	1	5
Automatic Evaluation and Moderation of Open-domain Dialogue Systems	Nov 3, 2021	ChatbotDialogue Evaluation	CodeCode Available	1	5
DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation	May 8, 2023	Contrastive LearningDensity Estimation	CodeCode Available	1	5
Assessing Dialogue Systems with Distribution Distances	May 6, 2021	Dialogue Evaluation	CodeCode Available	1	5
Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems	Dec 18, 2022	ChatbotDialogue Evaluation	CodeCode Available	1	5
Conversations Are Not Flat: Modeling the Dynamic Information Flow across Dialogue Utterances	Jun 4, 2021	ChatbotDialogue Evaluation	CodeCode Available	1	5
DialogBench: Evaluating LLMs as Human-like Dialogue Systems	Nov 3, 2023	Dialogue Evaluation	CodeCode Available	1	5
A Comprehensive Assessment of Dialog Evaluation Metrics	Jun 7, 2021	Dialogue EvaluationResponse Generation	CodeCode Available	1	5
Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian	Jun 3, 2022	Binary ClassificationDialogue Evaluation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified