SOTAVerified|Agents Browse Leaderboard About Blog

Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 97 papers

Title	Date	Tasks	Status	Hype	Score
Improving Automated Evaluation of Open Domain Dialog via Diverse Reference Augmentation	Jun 5, 2021	Dialogue EvaluationOpen-Domain Dialog	CodeCode Available	0	5
Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References	Jul 24, 2019	Dialogue EvaluationDiversity	CodeCode Available	0	5
MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation	Dec 14, 2021	Dialogue Evaluation	CodeCode Available	0	5
Measuring the Robustness of Reference-Free Dialogue Evaluation Systems	Jan 12, 2025	Dialogue EvaluationTAG	CodeCode Available	0	5
MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Chatbots and Dialogue Evaluators	May 28, 2025	BenchmarkingChatbot	CodeCode Available	0	5
Methods for Recognizing Nested Terms	Apr 22, 2025	Dialogue Evaluationnamed-entity-recognition	CodeCode Available	0	5
PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison	Apr 1, 2024	Dialogue Evaluation	CodeCode Available	0	5
Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems	Nov 4, 2019	Dialogue Evaluation	CodeCode Available	0	5
Proxy Indicators for the Quality of Open-domain Dialogues	Nov 1, 2021	Dialogue Evaluation	CodeCode Available	0	5
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts	Apr 9, 2025	Dialogue EvaluationLanguage Modeling	CodeCode Available	0	5

Show:10 25 50

← PrevPage 5 of 10Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified