Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning
Created by
Haebom
저자
Ashutosh Chaubey, Xulang Guan, Mohammad Soleymani
개요
본 논문은 얼굴 중심의 상황 내 학습을 위한 다중 모달 대규모 언어 모델인 Face-LLaVA를 제안합니다. Face-LLaVA는 얼굴 표정 및 속성 인식을 포함하며, 추론에 사용될 수 있는 자연어 설명을 생성할 수 있습니다. 먼저 얼굴 처리를 위한 MLLM의 지시어 미세조정을 위한 얼굴 중심 데이터베이스인 FaceInstruct-1M을 개발하였고, 얼굴 기하학 정보와 국소적 시각적 특징을 통합하는 Face-Region Guided Cross-Attention 기반의 새로운 얼굴 특화 시각적 인코더를 개발했습니다. 얼굴 표정 인식, 액션 유닛 탐지, 얼굴 속성 탐지, 나이 추정, 딥페이크 탐지 등 5가지 얼굴 처리 작업과 9가지 데이터셋을 통해 평가한 결과, 기존 오픈소스 MLLM보다 우수한 성능을, 상용 솔루션과 비교하여 경쟁력 있는 성능을 달성했습니다. 제로샷 설정에서 모든 작업에 대해 GPT에 의한 추론 평가 점수도 더 높았습니다. 데이터셋과 모델은 https://face-llava.github.io 에서 공개될 예정입니다.