기존의 다중 모드 대규모 언어 모델(MLLM)은 일반적인 데이터셋으로 훈련되어 얼굴 이미지와 같은 도메인 특정 시각적 단서에 대한 추론 능력이 제한적입니다. 본 논문에서는 얼굴 이미지 이해를 위해 특별히 훈련된 다중 모드 대규모 언어 모델인 FaceLLM을 제시합니다. ChatGPT를 이용한 새로운 약지도 학습 파이프라인을 통해 FairFace 데이터셋의 이미지를 기반으로 고품질 질의응답 쌍을 생성하여 FairFaceGPT라는 새로운 코퍼스를 구성했습니다. FaceLLM은 다양한 얼굴 중심 과제에서 MLLM의 성능을 향상시키고 최첨단 성능을 달성했습니다. 본 연구는 언어 모델을 통한 합성 감독의 잠재력을 보여주며, 신뢰할 수 있고 인간 중심적인 다중 모드 AI 시스템의 전례를 제시합니다. FairFaceGPT 데이터셋과 사전 훈련된 FaceLLM 모델은 공개적으로 제공됩니다.