SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–97 of 97 papers

Title	Date	Tasks	Status	Hype	Score
Leveraging LLMs for Dialogue Quality Measurement	Jun 25, 2024	Dialogue Evaluation	—Unverified	0	0
LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation	Jun 5, 2024	Dialogue EvaluationSensitivity	—Unverified	0	0
MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation	May 27, 2025	Dialogue Evaluation	—Unverified	0	0
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems	Sep 17, 2021	Dialogue Evaluation	—Unverified	0	0
AdaCoach: A Virtual Coach for Training Customer Service Agents	Apr 27, 2022	Dialogue Evaluation	—Unverified	0	0
WeChat AI & ICT's Submission for DSTC9 Interactive Dialogue Evaluation Track	Jan 20, 2021	Dialogue EvaluationLanguage Modeling	—Unverified	0	0
Treating Dialogue Quality Evaluation as an Anomaly Detection Problem	May 1, 2020	Anomaly DetectionDialogue Evaluation	—Unverified	0	0

Show:10 25 50

← PrevPage 10 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified