본 논문은 텍스트-이미지 생성 모델의 미세 조정을 위해 인간의 선호도 피드백 데이터를 활용하는 기존 방식의 확장성 한계를 극복하고자, 사용자의 자발적인 얼굴 표정 반응을 통해 선호도를 자동으로 평가하는 방법을 제시합니다. 연구진은 생성된 이미지에 대한 얼굴 표정 반응 데이터셋(FERGI)을 수집하고, 여러 얼굴 액션 유닛(AU)의 활성화가 사용자의 이미지 평가와 높은 상관관계를 보임을 보였습니다. 이를 바탕으로, AU 추정 모델의 출력을 입력으로 받아 사용자의 얼굴 표정 반응을 기반으로 선호도를 자동 평가하는 FAU-Net(Facial Action Units Neural Network)을 개발했습니다. FAU-Net의 valence 점수를 기존의 사전 학습된 점수 모델과 통합하여 인간 선호도와의 일관성을 향상시켰으며, 이 방법은 다른 생성 작업에도 일반화될 수 있는 잠재력을 가지고 있습니다. FERGI 데이터셋과 코드는 공개적으로 제공됩니다.