자연어 추론을 출력하는 AI 시스템의 안전성을 위해 추론 과정을 모니터링할 수 있는데, 훈련 방식이 모니터링 가능성에 영향을 미칠 수 있다. 본 논문은 추론 모델에 적용되는 다양한 훈련 인센티브가 모니터링 가능성에 미치는 영향을 조사한다. 모델의 추론을 사용하여 핵심 잠재 변수를 예측할 수 있는지 여부에 따라 모니터링 가능성을 측정하는 새로운 방법론을 제시한다. 정확도를 제어했을 때, 일반적인 인센티브(길이 페널티 및 KL 정규화)에서는 일관된 효과를 발견하지 못했다. 그러나 적대적 최적화(모니터 정확도 페널티)는 모니터 성능을 저하시키는 반면, 모니터링 가능성을 위한 직접 최적화는 신뢰할 만한 개선을 보이지 않았다.