Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning

Created by
  • Haebom

저자

Ashutosh Chaubey, Xulang Guan, Mohammad Soleymani

개요

본 논문은 얼굴 중심의 상황 내 학습을 위한 다중 모달 대규모 언어 모델인 Face-LLaVA를 제안합니다. Face-LLaVA는 얼굴 표정 및 속성 인식을 포함하며, 추론에 사용될 수 있는 자연어 설명을 생성할 수 있습니다. 먼저 얼굴 처리를 위한 MLLM의 지시어 미세조정을 위한 얼굴 중심 데이터베이스인 FaceInstruct-1M을 개발하였고, 얼굴 기하학 정보와 국소적 시각적 특징을 통합하는 Face-Region Guided Cross-Attention 기반의 새로운 얼굴 특화 시각적 인코더를 개발했습니다. 얼굴 표정 인식, 액션 유닛 탐지, 얼굴 속성 탐지, 나이 추정, 딥페이크 탐지 등 5가지 얼굴 처리 작업과 9가지 데이터셋을 통해 평가한 결과, 기존 오픈소스 MLLM보다 우수한 성능을, 상용 솔루션과 비교하여 경쟁력 있는 성능을 달성했습니다. 제로샷 설정에서 모든 작업에 대해 GPT에 의한 추론 평가 점수도 더 높았습니다. 데이터셋과 모델은 https://face-llava.github.io 에서 공개될 예정입니다.

시사점, 한계점

시사점:
얼굴 중심의 다중 모달 대규모 언어 모델 Face-LLaVA를 제시하여 얼굴 처리 작업에서 우수한 성능을 달성.
새로운 얼굴 특화 시각적 인코더와 얼굴 중심 데이터베이스 FaceInstruct-1M을 개발.
오픈소스로 공개하여 사회적 AI 및 기초적인 시각-언어 연구 발전에 기여.
제로샷 설정에서 높은 추론 능력을 보임.
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족.
FaceInstruct-1M 데이터셋의 규모 및 구성에 대한 자세한 설명 부족.
상용 솔루션과의 성능 비교에 대한 세부 정보 부족.
👍