본 논문은 대규모 언어 모델(LLM) 기반의 작업 지향 대화(TOD) 시스템 평가 방법론의 한계를 지적하고, 회전(turn) 수준과 대화 수준 모두를 평가하는 새로운 평가 프레임워크인 TD-EVAL을 제안한다. TD-EVAL은 회전 수준에서는 대화 응집성, 백엔드 지식 일관성, 정책 준수 등 세 가지 차원을 평가하고, 대화 수준에서는 쌍대 비교를 통해 대화 품질을 측정하는 TOD Agent Arena를 사용한다. MultiWOZ 2.4와 τ-Bench 데이터셋을 사용한 실험 결과, TD-EVAL은 기존 지표가 놓치는 대화 오류를 효과적으로 식별하고, 인간 판단과의 일치도가 더 높음을 보여준다. 따라서 TD-EVAL은 향후 TOD 시스템 평가를 위한 새로운 패러다임을 제시한다.