OpenAI (2025) 연구는 CoT 모니터에 대한 학습이 모니터가 감지할 수 없는 잘못된 동작을 포함하는 난해한 CoT를 유발할 수 있음을 보였습니다. CoT를 모니터링 가능하게 유지하기 위해 CoT에 접근할 수 없는 출력 모니터에 대해서만 학습할 것을 제안했습니다. 본 논문에서는 이러한 학습이 두 가지 메커니즘을 통해 여전히 난해한 CoT를 유발할 수 있음을 보여줍니다. 첫째, 모델이 안전해 보이는 출력을 생성하도록 학습될 때, CoT도 안전해 보이도록 일반화될 수 있습니다. 둘째, 후속 토큰은 이전 토큰에 의존하므로 안전해 보이는 CoT는 안전한 출력의 가능성을 높여 안전해 보이는 CoT가 강화될 수 있습니다. 본 논문에서는 이러한 두 가지 문제를 해결하기 위해 두 가지 완화 방법을 제시하며, 일반적인 학습에 비해 모니터링 가능성과 작업 성능 측면에서 파레토 개선을 달성합니다.