SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–70 of 97 papers

Title	Date	Tasks	Status	Hype
xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark	Oct 13, 2023	Dialogue EvaluationMachine Translation	CodeCode Available	0
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems	Mar 11, 2022	Dialogue Evaluation	CodeCode Available	0
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators	Dec 24, 2023	Dialogue Evaluation	CodeCode Available	0
Adversarial Learning for Neural Dialogue Generation	Jan 23, 2017	Dialogue EvaluationDialogue Generation	CodeCode Available	0
A Human-machine Collaborative Framework for Evaluating Malevolence in Dialogues	Aug 1, 2021	Dialogue Evaluation	CodeCode Available	0
An Adversarially-Learned Turing Test for Dialog Generation Models	Apr 16, 2021	Dialogue Evaluation	CodeCode Available	0
Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems	Jun 21, 2019	Dialogue EvaluationKnowledge Distillation	CodeCode Available	0
BoK: Introducing Bag-of-Keywords Loss for Interpretable Dialogue Response Generation	Jan 17, 2025	DecoderDialogue Evaluation	CodeCode Available	0
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation	Jun 27, 2023	Dialogue Evaluation	CodeCode Available	0
DEAM: Dialogue Coherence Evaluation using AMR-based Semantic Manipulations	Mar 18, 2022	Abstract Meaning RepresentationCoherence Evaluation	CodeCode Available	0

Show:10 25 50

← PrevPage 7 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified