# HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment

### 저자

Zhichao Liao, Xiaokun Liu, Wenyu Qin, Qingyu Li, Qiulin Wang, Pengfei Wan, Di Zhang, Long Zeng, Pingfa Feng

### 개요

본 논문은 인간 이미지 미적 평가(HIAA)에 초점을 맞춘 연구로, HIAA를 위한 첫 번째 데이터셋인 HumanBeauty를 소개합니다. HumanBeauty는 엄격한 큐레이션 과정을 거쳐 수집된 5만 장의 이미지와 공개 데이터셋에서 선별된 5만 8천 장의 이미지로 구성되며, 12차원 미적 기준을 활용한 수동 주석이 포함되어 있습니다.  이 데이터셋을 기반으로, 본 논문은 미적 하위 차원에 대한 인간의 지식을 통합하는 Expert head를 혁신적으로 설계하고, Language Modeling(LM) 및 Regression head와 함께 활용하는 Vision Language Model인 HumanAesExpert를 제안합니다.  세 개의 head의 점수를 집계하는 MetaVoter를 통해 각 head의 성능을 효과적으로 조정하여 평가 정확도를 향상시킵니다. 실험 결과, HumanAesExpert는 기존 최첨단 모델보다 HIAA에서 훨씬 우수한 성능을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - HIAA에 특화된 최초의 대규모 데이터셋 HumanBeauty를 구축하여 HIAA 연구의 발전에 기여.

    - 12차원 미적 기준을 활용한 정교한 미적 평가 가능.

    - HumanAesExpert 모델을 통해 기존 모델보다 우수한 HIAA 성능 달성.

    - Vision Language Model과 Expert head, MetaVoter를 결합한 새로운 접근 방식 제시.

- **한계점:**

    - HumanBeauty 데이터셋의 주석은 수동으로 이루어져, 주관성 및 비용 문제 존재 가능성.

    - 12차원 미적 기준의 보편성 및 일반화 가능성에 대한 추가 검증 필요.

    - 특정 문화적 배경에 치우친 데이터셋 구성 가능성 및 이로 인한 편향 문제 존재 가능성.

    - 모델의 일반화 성능에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2503.23907)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).