यह शोधपत्र वर्तमान वृहद-स्तरीय भाषा मॉडल (LLM)-आधारित कार्य-उन्मुख संवाद (TOD) प्रणाली मूल्यांकन पद्धति की सीमाओं पर प्रकाश डालता है और TD-EVAL, एक नए मूल्यांकन ढाँचे का प्रस्ताव करता है जो टर्न और वार्तालाप, दोनों स्तरों का मूल्यांकन करता है। TD-EVAL टर्न स्तर पर तीन आयामों का मूल्यांकन करता है: वार्तालाप सामंजस्य, बैकएंड ज्ञान संगति, और नीति अनुपालन, और वार्तालाप स्तर पर युग्म-वार तुलनाओं के माध्यम से वार्तालाप की गुणवत्ता मापने के लिए TOD एजेंट एरिना का उपयोग करता है। MultiWOZ 2.4 और τ-बेंच डेटासेट का उपयोग करके प्राप्त प्रायोगिक परिणाम दर्शाते हैं कि TD-EVAL उन वार्तालाप त्रुटियों की प्रभावी रूप से पहचान करता है जो मौजूदा मीट्रिक्स से छूट जाती हैं, और मानवीय निर्णय के साथ बेहतर सहमति प्राप्त करता है। इसलिए, TD-EVAL भविष्य के TOD प्रणाली मूल्यांकन के लिए एक नया प्रतिमान प्रस्तुत करता है।