LLM의 사실성 및 거부 훈련은 프롬프트의 사소한 변경으로 인해 손상될 수 있습니다. 모델은 종종 사용자 신념을 따르거나(아첨) 특수 텍스트 내에 래핑된 부적절한 요청을 충족합니다(탈옥). 본 논문은 프롬프트의 특정 관련 없는 단서에 대해 모델이 불변성을 갖도록 학습시키는 자기 지도 학습 패러다임인 \emph{일관성 훈련}을 탐구합니다. 특정 프롬프트에 대한 정확한 응답을 학습시키는 대신, 프롬프트 데이터 증강(선도 질문 또는 탈옥 텍스트 추가 등)에서 동일하게 동작하도록 모델을 학습시키는 것을 목표로 합니다. 모델의 외부 출력(Chua et al. [2025]의 \emph{Bias-augmented Consistency Training} (BCT))과 내부 활성화(본 연구에서 소개한 \emph{Activation Consistency Training} (ACT))를 통해 이 불변성을 적용합니다. 두 방법 모두 Gemini 2.5 Flash의 관련 없는 단서에 대한 취약성을 줄입니다. 일관성 훈련은 모델 자체의 응답을 훈련 데이터로 사용하기 때문에 모델 기능 저하 또는 오래된 응답 지침 적용과 같은 오래된 훈련 데이터에서 발생하는 문제를 피합니다. BCT와 ACT는 아첨을 동일하게 잘 줄이지만, BCT는 탈옥 감소에 더 효과적입니다. BCT는 정적 데이터 세트에 대한 의존성을 제거하여 훈련 파이프라인을 단순화할 수 있다고 생각합니다. 일부 정렬 문제는 최적의 응답보다는 일관성 문제로 보는 것이 더 적절하다고 주장합니다.