본 논문은 복합 표정 인식(CER)의 정확성 향상을 위해 대규모 비전-언어 모델(LVLMs)을 활용하는 새로운 방법을 제안합니다. 두 단계의 미세 조정 과정을 통해, 먼저 기본적인 얼굴 표정 데이터셋으로 LVLMs를 미세 조정하여 기본 패턴을 확립하고, 다음으로 복합 표정 데이터셋으로 모델을 추가적으로 최적화하여 시각-언어 특징 상호작용을 개선합니다. RAF-DB 데이터셋에서 높은 정확도를 달성하였으며, C-EXPR-DB 데이터셋에서 강력한 제로샷 일반화 성능을 보여줍니다.