SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 97 papers

Title	Date	Tasks	Status	Hype
Assessing Dialogue Systems with Distribution Distances	May 6, 2021	Dialogue Evaluation	CodeCode Available	1
InstructDial: Improving Zero and Few-shot Generalization in Dialogue through Instruction Tuning	May 25, 2022	Dialogue EvaluationDialogue Generation	CodeCode Available	1
Automatic Evaluation and Moderation of Open-domain Dialogue Systems	Nov 3, 2021	ChatbotDialogue Evaluation	CodeCode Available	1
PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative Dialogue Systems	Apr 6, 2020	Dialogue Evaluation	CodeCode Available	1
Improving Dialog Evaluation with a Multi-reference Adversarial Dataset and Large Scale Pretraining	Sep 23, 2020	Dialogue Evaluation	CodeCode Available	1
DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation	May 8, 2023	Contrastive LearningDensity Estimation	CodeCode Available	1
Conversations Are Not Flat: Modeling the Dynamic Information Flow across Dialogue Utterances	Jun 4, 2021	ChatbotDialogue Evaluation	CodeCode Available	1
DialogBench: Evaluating LLMs as Human-like Dialogue Systems	Nov 3, 2023	Dialogue Evaluation	CodeCode Available	1
A Comprehensive Assessment of Dialog Evaluation Metrics	Jun 7, 2021	Dialogue EvaluationResponse Generation	CodeCode Available	1
RuNNE-2022 Shared Task: Recognizing Nested Named Entities	May 23, 2022	Dialogue Evaluationnamed-entity-recognition	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified