Bài báo này đề cập đến những hạn chế của phương pháp đánh giá hệ thống đối thoại hướng nhiệm vụ (TOD) dựa trên mô hình ngôn ngữ quy mô lớn (LLM) hiện tại và đề xuất TD-EVAL, một khuôn khổ đánh giá mới, đánh giá cả cấp độ lượt nói và hội thoại. TD-EVAL đánh giá ba khía cạnh ở cấp độ lượt nói: sự gắn kết hội thoại, tính nhất quán kiến thức nền tảng và sự tuân thủ chính sách, đồng thời sử dụng TOD Agent Arena để đo lường chất lượng hội thoại thông qua so sánh từng cặp ở cấp độ hội thoại. Kết quả thử nghiệm sử dụng bộ dữ liệu MultiWOZ 2.4 và τ-Bench cho thấy TD-EVAL xác định hiệu quả các lỗi hội thoại mà các phép đo hiện có bỏ sót, đồng thời đạt được sự đồng thuận cao hơn với đánh giá của con người. Do đó, TD-EVAL mở ra một mô hình mới cho việc đánh giá hệ thống TOD trong tương lai.