Dialogue Evaluation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 97 papers

Title	Date	Tasks	Status
MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Chatbots and Dialogue Evaluators	May 28, 2025	BenchmarkingChatbot	CodeCode Available
MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation	May 27, 2025	Dialogue Evaluation	—Unverified
LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation	May 26, 2025	Dialogue Evaluation	—Unverified
Methods for Recognizing Nested Terms	Apr 22, 2025	Dialogue Evaluationnamed-entity-recognition	CodeCode Available
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts	Apr 9, 2025	Dialogue EvaluationLanguage Modeling	CodeCode Available
BoK: Introducing Bag-of-Keywords Loss for Interpretable Dialogue Response Generation	Jan 17, 2025	DecoderDialogue Evaluation	CodeCode Available
Measuring the Robustness of Reference-Free Dialogue Evaluation Systems	Jan 12, 2025	Dialogue EvaluationTAG	CodeCode Available
Dialogue You Can Trust: Human and AI Perspectives on Generated Conversations	Sep 3, 2024	Dialogue Evaluation	—Unverified
Soda-Eval: Open-Domain Dialogue Evaluation in the age of LLMs	Aug 20, 2024	Dialogue Evaluation	CodeCode Available
ECoh: Turn-level Coherence Evaluation for Multilingual Dialogues	Jul 16, 2024	Coherence EvaluationDialogue Evaluation	CodeCode Available
On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation	Jul 4, 2024	BenchmarkingChatbot	—Unverified
Leveraging LLMs for Dialogue Quality Measurement	Jun 25, 2024	Dialogue Evaluation	—Unverified
LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation	Jun 5, 2024	Dialogue EvaluationSensitivity	—Unverified
SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation	May 24, 2024	Contrastive LearningDialogue Evaluation	CodeCode Available
PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison	Apr 1, 2024	Dialogue Evaluation	CodeCode Available
Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation	Apr 1, 2024	Abstract Meaning RepresentationDialogue Evaluation	CodeCode Available
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators	Dec 24, 2023	Dialogue Evaluation	CodeCode Available
xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark	Oct 13, 2023	Dialogue EvaluationMachine Translation	CodeCode Available
RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue	Sep 15, 2023	Dialogue EvaluationMulti-Task Learning	—Unverified
Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue Evaluation	Sep 14, 2023	ChatbotDialogue Evaluation	CodeCode Available
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation	Aug 31, 2023	Dialogue Evaluation	CodeCode Available
Towards Multilingual Automatic Dialogue Evaluation	Aug 31, 2023	Dialogue EvaluationMachine Translation	CodeCode Available
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation	Jun 27, 2023	Dialogue Evaluation	CodeCode Available
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation	May 23, 2023	ChatbotDialogue Evaluation	—Unverified

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets USR-TopicalChat USR-PersonaChat

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MDD-Eval	Spearman Correlation	0.51	—	Unverified
2	Lin-Reg (all)	Spearman Correlation	0.49	—	Unverified
3	USR	Spearman Correlation	0.42	—	Unverified
4	USR - DR (x = c)	Spearman Correlation	0.32	—	Unverified
5	USR - MLM	Spearman Correlation	0.31	—	Unverified
6	USR - DR (x = f)	Spearman Correlation	0.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lin-Reg (all)	Spearman Correlation	0.54	—	Unverified
2	USR - DR (x = c)	Spearman Correlation	0.48	—	Unverified
3	USR	Spearman Correlation	0.47	—	Unverified
4	USR - MLM	Spearman Correlation	0.08	—	Unverified
5	USR - DR (x = f)	Spearman Correlation	-0.05	—	Unverified