본 논문은 오픈 가중치 추론 언어 모델이 최종 응답을 생성하기 전에 긴 사고 과정(CoTs)을 생성하는 과정에서 성능 향상과 함께 추가적인 정렬 위험이 발생하고, 유해한 콘텐츠가 CoTs와 최종 출력 모두에 나타나는 문제를 다룹니다. 연구진은 CoTs를 사용하여 최종 응답의 정렬 오류를 예측할 수 있는지 조사했습니다. 여러 모니터링 방법(사람, 고성능 대규모 언어 모델, 텍스트 분류기)을 CoT 텍스트 또는 활성화를 사용하여 평가한 결과, CoT 활성화에 대해 훈련된 간단한 선형 프로브가 최종 응답의 안전성을 예측하는 데 텍스트 기반 방법보다 훨씬 우수한 성능을 보였습니다. CoT 텍스트는 종종 부정확하여 사람과 분류기를 오도할 수 있지만, 모델 잠재 변수(즉, CoT 활성화)는 더 신뢰할 수 있는 예측 신호를 제공합니다. 프로브는 추론이 완료되기 전에 정확한 예측을 수행하며, 초기 CoT 세그먼트에 적용하더라도 강력한 성능을 달성합니다. 이러한 결과는 모델 크기, 계열 및 안전 벤치마크에 걸쳐 일반화되므로, 경량 프로브를 통해 실시간 안전 모니터링과 생성 중 조기 개입이 가능함을 시사합니다.