의사 결정 AI 에이전트의 배포는 복잡하고 동적인 환경에서 인간의 가치나 지침에 맞는 정렬을 유지하는 데 중요한 과제를 제시합니다. 목표 달성을 위해 훈련된 에이전트는 해로운 행동을 할 수 있으며, 보상 함수 최대화와 정렬 유지를 사이에 주요 트레이드 오프가 발생합니다. 사전 훈련된 에이전트의 경우, 재훈련이 비용이 많이 들고 시간이 오래 걸릴 수 있으므로 정렬을 보장하는 것이 특히 어렵습니다. 이 문제를 해결하기 위해, 본 논문에서는 모델 기반 정책 형성을 기반으로 하는 테스트 시간 정렬 기술을 제안합니다. 이 방법은 개별 행동 속성에 대한 정밀한 제어를 허용하고, 다양한 강화 학습 환경에서 일반화되며, 에이전트 재훈련 없이 윤리적 정렬과 보상 최대화 간의 원칙적인 트레이드 오프를 가능하게 합니다. MACHIAVELLI 벤치마크를 사용하여 제안된 접근 방식을 평가하고, 테스트 시간 정책 형성이 다양한 환경 및 정렬 속성에서 비윤리적 행동을 완화하기 위한 효과적이고 확장 가능한 솔루션임을 보여줍니다.