Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–97 of 97 papers

Title	Date	Tasks	Status
DCH-2: A Parallel Customer-Helpdesk Dialogue Corpus with Distributions of Annotators' Labels	Apr 18, 2021	Dialogue EvaluationMachine Translation	—Unverified
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows	Feb 14, 2022	Dialogue Evaluation	—Unverified
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation	May 23, 2023	ChatbotDialogue Evaluation	—Unverified
How to Evaluate the Next System: Automatic Dialogue Evaluation from the Perspective of Continual Learning	Dec 10, 2019	Continual LearningDialogue Evaluation	—Unverified
Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents	Jan 12, 2022	Dialogue EvaluationSensitivity	—Unverified
Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings	Apr 24, 2019	Dialogue Evaluationvalid	—Unverified
Explaining Dialogue Evaluation Metrics using Adversarial Behavioral Analysis	Jul 1, 2022	Dialogue Evaluation	—Unverified
Improving Open-Domain Dialogue Evaluation with a Causal Inference Model	Jan 31, 2023	Causal Inferencecounterfactual	—Unverified
Enhancing the Open-Domain Dialogue Evaluation in Latent Space	Aug 1, 2021	Dialogue Evaluation	—Unverified
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
Investigating the Impact of Pre-trained Language Models on Dialog Evaluation	Oct 5, 2021	Dialogue EvaluationOpen-Domain Dialog	—Unverified
Joint Goal Segmentation and Goal Success Prediction on Multi-Domain Conversations	Oct 1, 2022	Dialogue EvaluationMulti-Task Learning	—Unverified
DRE: An Effective Dual-Refined Method for Integrating Small and Large Language Models in Open-Domain Dialogue Evaluation	Jun 4, 2025	Dialogue Evaluationvalid	—Unverified
Learning the Human Judgment for the Automatic Evaluation of Chatbot	May 1, 2020	ChatbotDialogue Evaluation	—Unverified
LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation	May 26, 2025	Dialogue Evaluation	—Unverified
Leveraging LLMs for Dialogue Quality Measurement	Jun 25, 2024	Dialogue Evaluation	—Unverified
LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation	Jun 5, 2024	Dialogue EvaluationSensitivity	—Unverified
MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation	May 27, 2025	Dialogue Evaluation	—Unverified
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems	Sep 17, 2021	Dialogue Evaluation	—Unverified
AdaCoach: A Virtual Coach for Training Customer Service Agents	Apr 27, 2022	Dialogue Evaluation	—Unverified
WeChat AI & ICT's Submission for DSTC9 Interactive Dialogue Evaluation Track	Jan 20, 2021	Dialogue EvaluationLanguage Modeling	—Unverified
Treating Dialogue Quality Evaluation as an Anomaly Detection Problem	May 1, 2020	Anomaly DetectionDialogue Evaluation	—Unverified

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified