언어 모델(LM) 사용자가 모델의 생성 품질을 향상시키고자 할 때, 모델이 따라야 할 구체적인 행동 속성을 지정하는 것이 중요합니다. 하지만 광범위한 도메인에서 이러한 원칙을 수집하는 것은 노동 집약적인 주석 과정을 필요로 합니다. 본 논문에서는 자기 수정 설정을 통해 모델이 선호하는 응답을 위해 모델 추론을 안내하는 잠재 속성을 명시적으로 모델링하여 이 과정을 자동화하는 방법을 제안합니다. 이 접근 방식은 LM 자체에서 새로운 원칙을 추출하고 클러스터링을 통해 발견된 요소를 해석 가능한 집합으로 압축합니다. 특히, 후방 정규화된 몬테카를로 기대-최대화(Monte Carlo Expectation-Maximization) 형식을 사용하여 가장 효과적인 잠재 원칙의 축약된 집합을 식별하고 LM이 자체적으로 응답을 개선하기 위해 전략적으로 이를 호출하도록 학습시킵니다. 본 연구에서는 알고리즘을 여러 번 반복하여 부트스트래핑하면 더 작은 언어 모델(7-8B 파라미터)이 자체 개선을 달성하여 AlpacaEval 승률에서 +8-10%, MT-Bench에서 평균 +0.3, IFEval에서 원칙 준수 승률에서 +19-23% 향상을 보임을 입증합니다. 또한, 원칙을 클러스터링하면 모델 성능을 유지하면서 해석 가능하고 다양한 모델 생성 헌법을 얻을 수 있음을 보여줍니다. 본 연구 방법이 달성한 성과는 지속적인 자체 개선을 위한 자동화된 원칙 기반의 사후 훈련 방법의 가능성을 강조합니다.