의사 결정 AI 에이전트의 배포는 복잡하고 동적인 환경에서 인간의 가치관과 지침에 부합하도록 유지하는 데 중요한 과제를 안고 있습니다. 목표 달성에만 훈련된 에이전트는 해로운 행동을 보일 수 있으며, 보상 함수 최대화와 정렬 유지가 상충됩니다. 사전 훈련된 에이전트의 경우 재훈련은 비용이 많이 들고 시간이 오래 걸릴 수 있으므로 정렬을 보장하는 것이 특히 어렵습니다. 이러한 과제를 해결하기 위해 본 논문에서는 모델 기반 정책 형성을 기반으로 하는 테스트 시간 정렬 기술을 제안합니다. 이 방법은 개별 행동 속성에 대한 정밀한 제어를 허용하고, 다양한 강화 학습 환경에서 일반화되며, 에이전트 재훈련 없이 윤리적 정렬과 보상 최대화 간의 원칙적인 절충을 용이하게 합니다. MACHIAVELLI 벤치마크를 사용하여 제안된 방식을 평가합니다.