SOTAVerified|Agents Browse Leaderboard About Blog

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 97 papers

Title	Date	Tasks	Status	Hype
Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation	Apr 1, 2024	Abstract Meaning RepresentationDialogue Evaluation	CodeCode Available	0
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified	0
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators	Dec 24, 2023	Dialogue Evaluation	CodeCode Available	0
xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark	Oct 13, 2023	Dialogue EvaluationMachine Translation	CodeCode Available	0
RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue	Sep 15, 2023	Dialogue EvaluationMulti-Task Learning	—Unverified	0
Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue Evaluation	Sep 14, 2023	ChatbotDialogue Evaluation	CodeCode Available	0
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation	Aug 31, 2023	Dialogue Evaluation	CodeCode Available	0
Towards Multilingual Automatic Dialogue Evaluation	Aug 31, 2023	Dialogue EvaluationMachine Translation	CodeCode Available	0
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation	Jun 27, 2023	Dialogue Evaluation	CodeCode Available	0
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation	May 23, 2023	ChatbotDialogue Evaluation	—Unverified	0

Show:10 25 50

← PrevPage 5 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified