본 논문은 인공지능 정렬을 위한 인간 피드백 모델, 특히 직접적 선호도 최적화(DPO)의 한계를 극복하기 위해, 설정 가능한 선호도 조정(CPT)이라는 새로운 프레임워크를 제시합니다. CPT는 명시적이고 사람이 해석 가능한 지시에 따라 언어 모델의 행동을 동적으로 조정하는 능력을 부여합니다. 구조적이고 세분화된 기준(rubric)에서 파생된 시스템 프롬프트를 조건으로 합성적으로 생성된 선호도 데이터를 활용하여, LLM이 추론 시스템 프롬프트에 따라 출력을 조절하도록 학습합니다. 재훈련 없이도 세분화된 제어를 제공하며, 더욱 미묘하고 맥락에 의존적인 인간 피드백을 모델링하는 메커니즘을 제공합니다. 훈련 코드, 생성된 데이터셋, 미세 조정된 모델 등 여러 실험 결과물은 깃허브에 공개됩니다.