Chain-of-thought (CoT) 출력은 모델의 단계별 추론 과정을 보여주며, 이 과정의 품질은 모델의 사고를 직접적으로 반영한다. 본 논문에서는 CoT의 투명성을 통해 안전하지 않거나 정렬되지 않은 행동을 감지하는 monitorability를 강조하며, CoT의 faithfulness와 verbosity를 결합하여 단일 monitorability 점수를 제시한다. 모델이 모든 해결에 필요한 요소를 나열하는지 여부인 verbosity를 통해 monitorability를 보다 포괄적으로 측정하고, BBH, GPQA, MMLU 데이터셋을 사용하여 instruction-tuned 및 reasoning 모델을 평가한다. 평가는 Inspect 라이브러리를 사용하여 재현 가능성을 높였다.