SOTAVerified|Agents Browse Leaderboard About

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–97 of 97 papers

Title	Date	Tasks	Status	Hype
Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation	Apr 1, 2024	Abstract Meaning RepresentationDialogue Evaluation	CodeCode Available	0
Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation	Jun 10, 2021	Binary ClassificationDialogue Evaluation	CodeCode Available	0
Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses	Aug 23, 2017	Dialogue Evaluation	CodeCode Available	0
Towards Multilingual Automatic Dialogue Evaluation	Aug 31, 2023	Dialogue EvaluationMachine Translation	CodeCode Available	0
Transformers for Headline Selection for Russian News Clusters	Jun 19, 2021	Dialogue EvaluationSentence	CodeCode Available	0
What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation	Mar 25, 2022	Dialogue EvaluationOpen-Domain Dialog	CodeCode Available	0
Towards Best Experiment Design for Evaluating Dialogue System Output	Sep 23, 2019	Dialogue Evaluation	CodeCode Available	0

Show:10 25 50

← PrevPage 10 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified