본 논문은 일반적인 인간의 목표(무해하고 환각이 없는 등)에 맞춰 정렬된 시각-언어 모델(VLMs)이 시각적 작업 관리에 있어 인간의 귀중한 조력자 역할을 하지만, 다양한 배경을 가진 사람들은 동일한 상황에서도 인지가 다르고 따라서 VLM 조력자에 대한 기대치가 개인화될 수 있다는 점을 지적합니다. 이에 따라 실세계 지원을 위해 VLM 조력자를 개인화된 상황 인지에 맞추는 것이 시급한 과제임을 강조합니다. 본 논문에서는 사회학적 개념인 역할 집합(Role-Set)을 기반으로 개인을 특징짓는 방법을 제시하고, 개인화된 정렬이 달성되었는지 검토하기 위해 개인의 행동을 평가하는 방법을 제안합니다. 18,000개의 인스턴스와 20명의 서로 다른 역할 집합을 가진 개인을 포함하는 PCogAlignBench라는 벤치마크를 구축하고, 개인화된 정렬을 위한 인지 인식 및 행동 기반 보상 모델을 구성하는 PCogAlign이라는 프레임워크를 제시합니다. 실험 결과와 인간 평가는 PCogAlignBench의 신뢰성과 제안된 PCogAlign의 효과를 보여줍니다. 구축된 벤치마크와 코드는 https://github.com/NLPGM/PCogAlign 에서 공개될 예정입니다.