Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 97 papers

Title	Date	Tasks	Status
U-NEED: A Fine-grained Dataset for User Needs-Centric E-commerce Conversational Recommendation	May 5, 2023	Conversational RecommendationDialogue Evaluation	—Unverified
Pragmatically Appropriate Diversity for Dialogue Evaluation	Apr 6, 2023	Dialogue EvaluationDiversity	—Unverified
Improving Open-Domain Dialogue Evaluation with a Causal Inference Model	Jan 31, 2023	Causal Inferencecounterfactual	—Unverified
PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment	Dec 18, 2022	Data AugmentationDialogue Evaluation	—Unverified
Joint Goal Segmentation and Goal Success Prediction on Multi-Domain Conversations	Oct 1, 2022	Dialogue EvaluationMulti-Task Learning	—Unverified
Dialogue Evaluation with Offline Reinforcement Learning	Sep 2, 2022	Dialogue EvaluationOffline RL	—Unverified
SelF-Eval: Self-supervised Fine-grained Dialogue Evaluation	Aug 17, 2022	Contrastive LearningDialogue Evaluation	CodeCode Available
Explaining Dialogue Evaluation Metrics using Adversarial Behavioral Analysis	Jul 1, 2022	Dialogue Evaluation	—Unverified
MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue	Jun 19, 2022	Dialogue EvaluationMME	—Unverified
AdaCoach: A Virtual Coach for Training Customer Service Agents	Apr 27, 2022	Dialogue Evaluation	—Unverified
What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation	Mar 25, 2022	Dialogue EvaluationOpen-Domain Dialog	CodeCode Available
Report from the NSF Future Directions Workshop on Automatic Evaluation of Dialog: Research Directions and Challenges	Mar 18, 2022	Dialogue Evaluation	—Unverified
DEAM: Dialogue Coherence Evaluation using AMR-based Semantic Manipulations	Mar 18, 2022	Abstract Meaning RepresentationCoherence Evaluation	CodeCode Available
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems	Mar 11, 2022	Dialogue Evaluation	CodeCode Available
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows	Feb 14, 2022	Dialogue Evaluation	—Unverified
Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents	Jan 12, 2022	Dialogue EvaluationSensitivity	—Unverified
MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation	Dec 14, 2021	Dialogue Evaluation	CodeCode Available
User Response and Sentiment Prediction for Automatic Dialogue Evaluation	Nov 16, 2021	Dialogue EvaluationOpen-Domain Dialog	—Unverified
GCDF1: A Goal- and Context- Driven F-Score for Evaluating User Models	Nov 1, 2021	Dialogue EvaluationTask-Oriented Dialogue Systems	CodeCode Available
Proxy Indicators for the Quality of Open-domain Dialogues	Nov 1, 2021	Dialogue Evaluation	CodeCode Available
Investigating the Impact of Pre-trained Language Models on Dialog Evaluation	Oct 5, 2021	Dialogue EvaluationOpen-Domain Dialog	—Unverified
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems	Sep 17, 2021	Dialogue Evaluation	—Unverified
A Human-machine Collaborative Framework for Evaluating Malevolence in Dialogues	Aug 1, 2021	Dialogue Evaluation	CodeCode Available
Enhancing the Open-Domain Dialogue Evaluation in Latent Space	Aug 1, 2021	Dialogue Evaluation	—Unverified
Transformers for Headline Selection for Russian News Clusters	Jun 19, 2021	Dialogue EvaluationSentence	CodeCode Available

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified