본 논문은 생성형 에이전트의 행동을 복잡한 인간의 가치와 일치시키는 문제를 다룬다. 기존의 접근 방식은 인간의 의도를 스칼라 보상으로 단순화하는 반면, 본 논문에서는 인간의 선호도를 잠재적인 벡터 값 보상 함수로 모델링하는 선호도 기반 다목적 역강화학습(MO-IRL)에 대한 이론적 틀을 제시한다. 이는 노이즈가 있는 선호도 질의에서 Pareto-최적 보상 표현을 복구하는 문제를 공식화하고, 기저 다목적 구조를 식별하기 위한 조건을 설정한다. Pareto 전선의 ε-근사값을 복구하기 위한 엄격한 샘플 복잡도 경계를 도출하고, 이 다목적 설정에서의 최적화 부족을 정량화하기 위한 후회(regret) 공식을 제시한다. 또한, 선호도 추론 보상 콘을 사용한 정책 최적화를 위한 증명 가능한 수렴 알고리즘을 제안한다. 결과적으로 실용적인 정렬 기술과 이론적 보장 간의 간극을 해소하여 고차원 및 가치 다원주의 환경에서 정렬된 행동을 학습하기 위한 원칙적인 기반을 제공한다.