본 논문은 언어 모델(LM)의 출력 텍스트에서 나타나는 특정 행동(예: 정렬 훈련 실패)을 배포 중에 탐지하고 대응하는 방법을 제시한다. 기존에는 이러한 행동을 출력 텍스트 전체가 생성된 후에야 식별할 수 있었지만, 본 논문은 입력 토큰의 내부 표현만을 사용하여 훈련된 탐지기(probe)를 통해 단일 토큰이 생성되기 전에 LM의 행동을 예측할 수 있음을 보여준다. 구체적으로, 합의 예측(conformal prediction) 방법을 사용하여 탐지기의 추정 오차에 대한 입증 가능한 경계를 제공하고, 정렬 실패(탈옥) 및 지시 사항 따르기 실패를 사전에 식별하는 정밀한 조기 경고 시스템을 구축한다. 이 시스템은 탈옥을 91% 감소시키는 효과를 보였으며, 모델의 자신감 수준 예측과 Chain-of-Thought(CoT) 프롬프팅을 사용하는 LM의 최종 예측을 사전 예측하는 데에도 유용함을 보였다. CoT를 사용하는 텍스트 분류 LM에 적용했을 때, 평균 65%의 추론 비용 감소와 무시할 만한 정확도 손실을 달성했다. 또한, 미지의 데이터셋에도 일반화되고 더 큰 모델에서 성능이 향상되어 실제 환경에서 대규모 모델에 적용 가능성을 시사한다.