본 논문은 행동 치료 기록의 질적 기준 미흡 문제를 해결하기 위해, 면허를 가진 치료사들과 협력하여 완전성, 간결성, 충실성이라는 주요 측면에서 치료 기록을 평가하는 포괄적인 기준표를 설계했습니다. 공개 데이터셋에 치료사가 작성한 기록과 LLM이 생성한 기록을 추가하고, 이 평가 기준을 적용하여 품질을 측정했습니다. 그 결과, 기준표 기반 수동 평가 프로토콜이 기존의 Likert 척도보다 더 신뢰할 수 있고 해석 가능한 결과를 제공하며, LLM은 완전성과 간결성 평가에서는 인간 평가자를 모방할 수 있지만 충실성에서는 어려움을 겪는다는 것을 발견했습니다. 또한, 치료사가 작성한 기록은 종종 완전성과 간결성이 부족하고, LLM이 생성한 기록에는 환각이 포함되어 있음을 확인했습니다. 놀랍게도, 맹검 테스트에서 치료사들은 LLM이 생성한 기록을 치료사가 작성한 기록보다 우수하다고 평가했습니다.