Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–97 of 97 papers

Title	Date	Tasks	Status
Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation	Jun 10, 2021	Binary ClassificationDialogue Evaluation	CodeCode Available
Improving Automated Evaluation of Open Domain Dialog via Diverse Reference Augmentation	Jun 5, 2021	Dialogue EvaluationOpen-Domain Dialog	CodeCode Available
Generating Negative Samples by Manipulating Golden Responses for Unsupervised Learning of a Response Evaluation Model	Jun 1, 2021	Dialogue Evaluation	CodeCode Available
DCH-2: A Parallel Customer-Helpdesk Dialogue Corpus with Distributions of Annotators' Labels	Apr 18, 2021	Dialogue EvaluationMachine Translation	—Unverified
An Adversarially-Learned Turing Test for Dialog Generation Models	Apr 16, 2021	Dialogue Evaluation	CodeCode Available
WeChat AI & ICT's Submission for DSTC9 Interactive Dialogue Evaluation Track	Jan 20, 2021	Dialogue EvaluationLanguage Modeling	—Unverified
Deconstruct to Reconstruct a Configurable Evaluation Metric for Open-Domain Dialogue Systems	Nov 1, 2020	Dialogue EvaluationSemantic Similarity	CodeCode Available
Predicting Ratings of Real Dialogue Participants from Artificial Data and Ratings of Human Dialogue Observers	May 1, 2020	Dialogue Evaluation	—Unverified
Learning the Human Judgment for the Automatic Evaluation of Chatbot	May 1, 2020	ChatbotDialogue Evaluation	—Unverified
Treating Dialogue Quality Evaluation as an Anomaly Detection Problem	May 1, 2020	Anomaly DetectionDialogue Evaluation	—Unverified
How to Evaluate the Next System: Automatic Dialogue Evaluation from the Perspective of Continual Learning	Dec 10, 2019	Continual LearningDialogue Evaluation	—Unverified
Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems	Nov 4, 2019	Dialogue Evaluation	CodeCode Available
Towards Best Experiment Design for Evaluating Dialogue System Output	Sep 23, 2019	Dialogue Evaluation	CodeCode Available
ACUTE-EVAL: Improved Dialogue Evaluation with Optimized Questions and Multi-turn Comparisons	Sep 6, 2019	Dialogue Evaluation	—Unverified
Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References	Jul 24, 2019	Dialogue EvaluationDiversity	CodeCode Available
Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems	Jun 21, 2019	Dialogue EvaluationKnowledge Distillation	CodeCode Available
Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings	Apr 24, 2019	Dialogue Evaluationvalid	—Unverified
Evaluating Coherence in Dialogue Systems using Entailment	Apr 6, 2019	Dialogue EvaluationDiversity	CodeCode Available
Re-evaluating ADEM: A Deeper Look at Scoring Dialogue Responses	Feb 23, 2019	Dialogue EvaluationResponse Generation	—Unverified
One "Ruler" for All Languages: Multi-Lingual Dialogue Evaluation with Adversarial Multi-Task Learning	May 8, 2018	AllDialogue Evaluation	—Unverified
Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses	Aug 23, 2017	Dialogue Evaluation	CodeCode Available
Adversarial Learning for Neural Dialogue Generation	Jan 23, 2017	Dialogue EvaluationDialogue Generation	CodeCode Available

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified