Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–97 of 97 papers

Title	Date	Tasks	Status
Generating Negative Samples by Manipulating Golden Responses for Unsupervised Learning of a Response Evaluation Model	Jun 1, 2021	Dialogue Evaluation	CodeCode Available
Improving Automated Evaluation of Open Domain Dialog via Diverse Reference Augmentation	Jun 5, 2021	Dialogue EvaluationOpen-Domain Dialog	CodeCode Available
Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References	Jul 24, 2019	Dialogue EvaluationDiversity	CodeCode Available
MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation	Dec 14, 2021	Dialogue Evaluation	CodeCode Available
Measuring the Robustness of Reference-Free Dialogue Evaluation Systems	Jan 12, 2025	Dialogue EvaluationTAG	CodeCode Available
MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Chatbots and Dialogue Evaluators	May 28, 2025	BenchmarkingChatbot	CodeCode Available
Methods for Recognizing Nested Terms	Apr 22, 2025	Dialogue Evaluationnamed-entity-recognition	CodeCode Available
PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison	Apr 1, 2024	Dialogue Evaluation	CodeCode Available
Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems	Nov 4, 2019	Dialogue Evaluation	CodeCode Available
Proxy Indicators for the Quality of Open-domain Dialogues	Nov 1, 2021	Dialogue Evaluation	CodeCode Available
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts	Apr 9, 2025	Dialogue EvaluationLanguage Modeling	CodeCode Available
SelF-Eval: Self-supervised Fine-grained Dialogue Evaluation	Aug 17, 2022	Contrastive LearningDialogue Evaluation	CodeCode Available
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation	Aug 31, 2023	Dialogue Evaluation	CodeCode Available
SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation	May 24, 2024	Contrastive LearningDialogue Evaluation	CodeCode Available
Soda-Eval: Open-Domain Dialogue Evaluation in the age of LLMs	Aug 20, 2024	Dialogue Evaluation	CodeCode Available
Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation	Apr 1, 2024	Abstract Meaning RepresentationDialogue Evaluation	CodeCode Available
Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation	Jun 10, 2021	Binary ClassificationDialogue Evaluation	CodeCode Available
Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses	Aug 23, 2017	Dialogue Evaluation	CodeCode Available
Towards Multilingual Automatic Dialogue Evaluation	Aug 31, 2023	Dialogue EvaluationMachine Translation	CodeCode Available
Transformers for Headline Selection for Russian News Clusters	Jun 19, 2021	Dialogue EvaluationSentence	CodeCode Available
What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation	Mar 25, 2022	Dialogue EvaluationOpen-Domain Dialog	CodeCode Available
Towards Best Experiment Design for Evaluating Dialogue System Output	Sep 23, 2019	Dialogue Evaluation	CodeCode Available

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified