SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 71–80 of 97 papers

Title	Date	Tasks	Status	Hype	Score
User Response and Sentiment Prediction for Automatic Dialogue Evaluation	Nov 16, 2021	Dialogue EvaluationOpen-Domain Dialog	—Unverified	0	0
Dialogue Evaluation with Offline Reinforcement Learning	Sep 2, 2022	Dialogue EvaluationOffline RL	—Unverified	0	0
RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue	Sep 15, 2023	Dialogue EvaluationMulti-Task Learning	—Unverified	0	0
Re-evaluating ADEM: A Deeper Look at Scoring Dialogue Responses	Feb 23, 2019	Dialogue EvaluationResponse Generation	—Unverified	0	0
Report from the NSF Future Directions Workshop on Automatic Evaluation of Dialog: Research Directions and Challenges	Mar 18, 2022	Dialogue Evaluation	—Unverified	0	0
DCH-2: A Parallel Customer-Helpdesk Dialogue Corpus with Distributions of Annotators' Labels	Apr 18, 2021	Dialogue EvaluationMachine Translation	—Unverified	0	0
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows	Feb 14, 2022	Dialogue Evaluation	—Unverified	0	0
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation	May 23, 2023	ChatbotDialogue Evaluation	—Unverified	0	0
How to Evaluate the Next System: Automatic Dialogue Evaluation from the Perspective of Continual Learning	Dec 10, 2019	Continual LearningDialogue Evaluation	—Unverified	0	0
Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents	Jan 12, 2022	Dialogue EvaluationSensitivity	—Unverified	0	0

Show:10 25 50

← PrevPage 8 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified