Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 97 papers

Title	Date	Tasks	Status
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
Explaining Dialogue Evaluation Metrics using Adversarial Behavioral Analysis	Jul 1, 2022	Dialogue Evaluation	—Unverified
Treating Dialogue Quality Evaluation as an Anomaly Detection Problem	May 1, 2020	Anomaly DetectionDialogue Evaluation	—Unverified
U-NEED: A Fine-grained Dataset for User Needs-Centric E-commerce Conversational Recommendation	May 5, 2023	Conversational RecommendationDialogue Evaluation	—Unverified
User Response and Sentiment Prediction for Automatic Dialogue Evaluation	Nov 16, 2021	Dialogue EvaluationOpen-Domain Dialog	—Unverified
WeChat AI & ICT's Submission for DSTC9 Interactive Dialogue Evaluation Track	Jan 20, 2021	Dialogue EvaluationLanguage Modeling	—Unverified
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows	Feb 14, 2022	Dialogue Evaluation	—Unverified
Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings	Apr 24, 2019	Dialogue Evaluationvalid	—Unverified
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation	May 23, 2023	ChatbotDialogue Evaluation	—Unverified
How to Evaluate the Next System: Automatic Dialogue Evaluation from the Perspective of Continual Learning	Dec 10, 2019	Continual LearningDialogue Evaluation	—Unverified
xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark	Oct 13, 2023	Dialogue EvaluationMachine Translation	CodeCode Available
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems	Mar 11, 2022	Dialogue Evaluation	CodeCode Available
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators	Dec 24, 2023	Dialogue Evaluation	CodeCode Available
Adversarial Learning for Neural Dialogue Generation	Jan 23, 2017	Dialogue EvaluationDialogue Generation	CodeCode Available
A Human-machine Collaborative Framework for Evaluating Malevolence in Dialogues	Aug 1, 2021	Dialogue Evaluation	CodeCode Available
An Adversarially-Learned Turing Test for Dialog Generation Models	Apr 16, 2021	Dialogue Evaluation	CodeCode Available
Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems	Jun 21, 2019	Dialogue EvaluationKnowledge Distillation	CodeCode Available
BoK: Introducing Bag-of-Keywords Loss for Interpretable Dialogue Response Generation	Jan 17, 2025	DecoderDialogue Evaluation	CodeCode Available
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation	Jun 27, 2023	Dialogue Evaluation	CodeCode Available
DEAM: Dialogue Coherence Evaluation using AMR-based Semantic Manipulations	Mar 18, 2022	Abstract Meaning RepresentationCoherence Evaluation	CodeCode Available
Deconstruct to Reconstruct a Configurable Evaluation Metric for Open-Domain Dialogue Systems	Nov 1, 2020	Dialogue EvaluationSemantic Similarity	CodeCode Available
ECoh: Turn-level Coherence Evaluation for Multilingual Dialogues	Jul 16, 2024	Coherence EvaluationDialogue Evaluation	CodeCode Available
Evaluating Coherence in Dialogue Systems using Entailment	Apr 6, 2019	Dialogue EvaluationDiversity	CodeCode Available
Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue Evaluation	Sep 14, 2023	ChatbotDialogue Evaluation	CodeCode Available
GCDF1: A Goal- and Context- Driven F-Score for Evaluating User Models	Nov 1, 2021	Dialogue EvaluationTask-Oriented Dialogue Systems	CodeCode Available

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified