본 논문은 사람 이미지의 미적 평가(HIAA)에 초점을 맞춘 연구로, 기존 연구가 부족한 HIAA 분야에 대한 전반적인 구현 프레임워크를 제시합니다. 10만 8천 개의 고품질 사람 이미지로 구성된 HumanBeauty 데이터셋을 새롭게 구축하여, 5만 개의 이미지는 엄격한 큐레이션 과정을 거쳐 12차원 미적 기준으로 수동 주석을 달았고, 나머지 5만 8천 개는 공개 데이터셋에서 체계적으로 필터링하여 전반적인 미적 레이블을 부여했습니다. 이 데이터셋을 기반으로, 미적 하위 차원에 대한 인간의 지식을 통합하는 Expert head를 혁신적으로 설계하고, 언어 모델링(LM) 및 회귀 헤드를 함께 활용하는 HumanAesExpert라는 강력한 Vision Language Model을 제안합니다. 각 헤드의 성능을 효과적으로 조정하기 위해 세 개의 헤드에서 나온 점수를 집계하는 MetaVoter를 도입하여 평가 정확도를 향상시켰습니다. 실험 결과, HumanAesExpert 모델은 기존 최첨단 모델보다 HIAA에서 훨씬 우수한 성능을 보였으며, 데이터셋, 모델, 코드를 공개하여 HIAA 연구 발전에 기여합니다.