SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–70 of 97 papers

Title	Date	Tasks	Status	Hype	Score
Towards Best Experiment Design for Evaluating Dialogue System Output	Sep 23, 2019	Dialogue Evaluation	CodeCode Available	0	5
MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue	Jun 19, 2022	Dialogue EvaluationMME	—Unverified	0	0
One "Ruler" for All Languages: Multi-Lingual Dialogue Evaluation with Adversarial Multi-Task Learning	May 8, 2018	AllDialogue Evaluation	—Unverified	0	0
On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation	Jul 4, 2024	BenchmarkingChatbot	—Unverified	0	0
U-NEED: A Fine-grained Dataset for User Needs-Centric E-commerce Conversational Recommendation	May 5, 2023	Conversational RecommendationDialogue Evaluation	—Unverified	0	0
PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment	Dec 18, 2022	Data AugmentationDialogue Evaluation	—Unverified	0	0
Dialogue You Can Trust: Human and AI Perspectives on Generated Conversations	Sep 3, 2024	Dialogue Evaluation	—Unverified	0	0
Pragmatically Appropriate Diversity for Dialogue Evaluation	Apr 6, 2023	Dialogue EvaluationDiversity	—Unverified	0	0
Predicting Ratings of Real Dialogue Participants from Artificial Data and Ratings of Human Dialogue Observers	May 1, 2020	Dialogue Evaluation	—Unverified	0	0
ACUTE-EVAL: Improved Dialogue Evaluation with Optimized Questions and Multi-turn Comparisons	Sep 6, 2019	Dialogue Evaluation	—Unverified	0	0

Show:10 25 50

← PrevPage 7 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified