Contrast-Consistent Search (CCS)와 같은 비지도 프로브가 모델 정렬을 신뢰성 있게 평가할 수 있는지 여부를 조사합니다. 유해한 문장과 안전한 문장에 대한 CCS의 민감도를 검사하고, 극성 반전 하에서 모델의 내부 표현이 일관성을 유지하는지 평가하는 방법인 Polarity-Aware CCS (PA-CCS)를 소개합니다. Polar-Consistency와 Contradiction Index라는 두 가지 정렬 지향적 메트릭을 제안하여 모델의 잠재 지식의 의미적 견고성을 정량화합니다. PA-CCS를 검증하기 위해, concurrent 및 antagonistic statement를 사용하여 구축된, 유해-안전 문장 쌍을 포함하는 두 개의 주요 데이터 세트와 하나의 제어 데이터 세트를 구성하고, 16개의 언어 모델에 적용합니다. PA-CCS는 잠재적인 유해 지식의 인코딩에서 아키텍처 및 레이어별 차이점을 식별합니다. 잘 정렬된 내부 표현을 가진 모델의 경우, 무의미한 마커로 부정 토큰을 대체하면 PA-CCS 점수가 저하되지만, 견고한 내부 보정을 갖추지 못한 모델은 이러한 저하를 보이지 않습니다.