Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 97 papers

Title	Date	Tasks	Status	Hype
Towards Multilingual Automatic Dialogue Evaluation	Aug 31, 2023	Dialogue EvaluationMachine Translation	CodeCode Available	0
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation	Jun 27, 2023	Dialogue Evaluation	CodeCode Available	0
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation	May 23, 2023	ChatbotDialogue Evaluation	—Unverified	0
DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation	May 8, 2023	Contrastive LearningDensity Estimation	CodeCode Available	1
U-NEED: A Fine-grained Dataset for User Needs-Centric E-commerce Conversational Recommendation	May 5, 2023	Conversational RecommendationDialogue Evaluation	—Unverified	0
Pragmatically Appropriate Diversity for Dialogue Evaluation	Apr 6, 2023	Dialogue EvaluationDiversity	—Unverified	0
GLM-Dialog: Noise-tolerant Pre-training for Knowledge-grounded Dialogue Generation	Feb 28, 2023	Dialogue EvaluationDialogue Generation	CodeCode Available	1
Improving Open-Domain Dialogue Evaluation with a Causal Inference Model	Jan 31, 2023	Causal Inferencecounterfactual	—Unverified	0
Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems	Dec 18, 2022	ChatbotDialogue Evaluation	CodeCode Available	1
PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment	Dec 18, 2022	Data AugmentationDialogue Evaluation	—Unverified	0
FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation	Oct 25, 2022	Dialogue Evaluation	CodeCode Available	1
Joint Goal Segmentation and Goal Success Prediction on Multi-Domain Conversations	Oct 1, 2022	Dialogue EvaluationMulti-Task Learning	—Unverified	0
Dialogue Evaluation with Offline Reinforcement Learning	Sep 2, 2022	Dialogue EvaluationOffline RL	—Unverified	0
SelF-Eval: Self-supervised Fine-grained Dialogue Evaluation	Aug 17, 2022	Contrastive LearningDialogue Evaluation	CodeCode Available	0
Explaining Dialogue Evaluation Metrics using Adversarial Behavioral Analysis	Jul 1, 2022	Dialogue Evaluation	—Unverified	0
MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue	Jun 19, 2022	Dialogue EvaluationMME	—Unverified	0
Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian	Jun 3, 2022	Binary ClassificationDialogue Evaluation	CodeCode Available	1
InstructDial: Improving Zero and Few-shot Generalization in Dialogue through Instruction Tuning	May 25, 2022	Dialogue EvaluationDialogue Generation	CodeCode Available	1
RuNNE-2022 Shared Task: Recognizing Nested Named Entities	May 23, 2022	Dialogue Evaluationnamed-entity-recognition	CodeCode Available	1
AdaCoach: A Virtual Coach for Training Customer Service Agents	Apr 27, 2022	Dialogue Evaluation	—Unverified	0
What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation	Mar 25, 2022	Dialogue EvaluationOpen-Domain Dialog	CodeCode Available	0
Report from the NSF Future Directions Workshop on Automatic Evaluation of Dialog: Research Directions and Challenges	Mar 18, 2022	Dialogue Evaluation	—Unverified	0
DEAM: Dialogue Coherence Evaluation using AMR-based Semantic Manipulations	Mar 18, 2022	Abstract Meaning RepresentationCoherence Evaluation	CodeCode Available	0
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems	Mar 11, 2022	Dialogue Evaluation	CodeCode Available	0
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows	Feb 14, 2022	Dialogue Evaluation	—Unverified	0

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified