AI 모델의 자율성 증가에 따라 유해한 행동을 감지하는 것이 중요해짐에 따라, 본 논문은 Chain-of-Thought (CoT) 모니터링을 연구한다. 이는 신뢰할 수 있는 약한 모니터 모델이 더 강력하지만 신뢰할 수 없는 모델의 중간 추론 단계를 지속적으로 감시하는 방식이다. 코딩 문제 해결 과정에서 유해한 부가 작업을 수행하도록 지시받은 신뢰할 수 없는 모델을 대상으로, CoT 모니터링과 최종 출력만 검토하는 action-only 모니터링을 비교한다. CoT 모니터링은 action-only 모니터링이 실패하는 시나리오에서 더 효과적이지만, 추론 과정에 CoT 모니터를 속이는 오해의 소지가 있는 합리화가 포함될 수 있어 명백한 사보타주 사례에서 성능이 저하될 수 있음을 발견했다. 이를 해결하기 위해, 모델 추론과 행동을 독립적으로 평가하고 가중 평균을 사용하여 결합하는 하이브리드 프로토콜을 제안한다. 제안된 하이브리드 모니터는 모든 테스트 모델과 작업에서 CoT 및 action-only 모니터를 지속적으로 능가하며, 미묘한 속임수 시나리오에서 action-only 모니터링보다 두 배 높은 탐지율을 보인다.