SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–60 of 97 papers

Title	Date	Tasks	Status	Hype
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified	0
Explaining Dialogue Evaluation Metrics using Adversarial Behavioral Analysis	Jul 1, 2022	Dialogue Evaluation	—Unverified	0
Treating Dialogue Quality Evaluation as an Anomaly Detection Problem	May 1, 2020	Anomaly DetectionDialogue Evaluation	—Unverified	0
U-NEED: A Fine-grained Dataset for User Needs-Centric E-commerce Conversational Recommendation	May 5, 2023	Conversational RecommendationDialogue Evaluation	—Unverified	0
User Response and Sentiment Prediction for Automatic Dialogue Evaluation	Nov 16, 2021	Dialogue EvaluationOpen-Domain Dialog	—Unverified	0
WeChat AI & ICT's Submission for DSTC9 Interactive Dialogue Evaluation Track	Jan 20, 2021	Dialogue EvaluationLanguage Modeling	—Unverified	0
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows	Feb 14, 2022	Dialogue Evaluation	—Unverified	0
Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings	Apr 24, 2019	Dialogue Evaluationvalid	—Unverified	0
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation	May 23, 2023	ChatbotDialogue Evaluation	—Unverified	0
How to Evaluate the Next System: Automatic Dialogue Evaluation from the Perspective of Continual Learning	Dec 10, 2019	Continual LearningDialogue Evaluation	—Unverified	0

Show:10 25 50

← PrevPage 6 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified