본 논문은 자동화된 의사결정 시스템에서 생성된 궤적을 개인화하는 문제를 해결하기 위해 자원 효율적인 접근 방식을 제시합니다. 이 방법은 사전 훈련된 조건부 확산 모델과 선호도 잠재 임베딩(PLE)을 활용하여 개별 사용자의 선호도에 대한 빠른 적응을 가능하게 합니다. PLE은 특정 사용자 선호도를 포착하는 압축된 표현으로 기능하며, 대규모의 보상 없는 오프라인 데이터셋으로 훈련됩니다. 제안된 선호도 반전 방법을 사용하여 사전 훈련된 모델을 적응시킴으로써(학습 가능한 PLE을 직접 최적화), 강화 학습 기반 인간 피드백(RLHF)이나 저차원 적응(LoRA)과 같은 기존 솔루션보다 인간 선호도와의 정렬을 향상시킵니다. 실제 응용 프로그램을 더 잘 반영하기 위해 다양하고 높은 보상을 제공하는 궤적에 대한 실제 인간 선호도를 사용한 벤치마크 실험을 수행합니다.