본 논문은 AI 에이전트가 개인의 선호도를 이해하고 적응하며, 특히 협업적인 역할에서 효과적으로 작동할 수 있도록 하는 방법을 제시합니다. 기존 연구들이 일반화된 접근 방식을 채택한 것과 달리, 본 연구는 적은 수의 시범을 통해 선호도를 학습하고, 이를 바탕으로 계획 전략을 적응시키는 에이전트를 개발합니다. 선호도가 최소한의 시범을 통해 암묵적으로 표현되더라도 다양한 계획 시나리오에 일반화될 수 있다는 관찰에 기반하여, 원자적 행동에서 복잡한 시퀀스에 이르기까지 수백 가지의 다양한 선호도를 특징으로 하는 Preference-based Planning (PbP) 벤치마크를 제시합니다. 기존 최고 성능 방법론(SOTA) 평가를 통해 심볼 기반 접근 방식이 확장성 측면에서 유망하지만, 개인화된 선호도를 충족하는 계획을 생성하고 실행하는 데는 여전히 상당한 어려움이 있음을 보여줍니다. 또한, 학습된 선호도를 계획의 중간 표현으로 통합하면 에이전트가 개인화된 계획을 구성하는 능력이 크게 향상됨을 보여줍니다. 이러한 결과는 선호도가 적응형 계획을 위한 귀중한 추상화 계층임을 보여주며, 선호도 기반 계획 생성 및 실행에 대한 새로운 연구 방향을 제시합니다.