본 논문은 대규모 언어 모델(LLM)을 활용한 학습 상호작용 주석의 신뢰성 문제를 해결하기 위해, 자체 검증(self-verification) 또는 상호 검증(cross-verification)을 통해 LLM의 주석 품질을 향상시키는 방법을 연구합니다. 30개의 일대일 수학 튜터링 세션의 대본을 사용하여, 세 가지 LLM(GPT, Claude, Gemini)을 검증되지 않은 주석, 자체 검증, 상호 검증의 세 가지 조건에서 비교했습니다. 블라인드된 인간 심사 결과와 Cohen's kappa를 사용하여 성능을 평가한 결과, 오케스트레이션 기법이 주석 품질을 향상시키는 것으로 나타났습니다. 특히, 자체 검증은 검증되지 않은 기본값 대비 합의도를 거의 두 배로 높였으며, 상호 검증은 평균적으로 37% 향상을 보였습니다.