본 논문은 다양한 모달리티(텍스트, 비디오, 오디오)를 통합하여 인간 감정을 인식하고 해석하는 다중 모달 감정 컴퓨팅(MAC) 분야에서 최신 다중 모달 대규모 언어 모델(MLLM)의 성능을 체계적으로 평가하고, 모델 최적화 및 성능 향상을 위한 새로운 전략을 제시합니다. 여러 기존 MAC 데이터셋을 사용하여 오픈소스 MLLM들의 성능을 비교 분석하고, 모델 아키텍처 및 데이터셋 특성의 영향을 분석하여 실행 가능한 통찰력을 제공합니다. 또한, 생성적 지식 프롬프팅과 지도 학습 파인튜닝을 결합한 새로운 하이브리드 전략을 제안하여 MLLM의 감정 컴퓨팅 능력을 향상시키고, 실험 결과를 통해 이 방법의 효과를 입증합니다. 코드는 깃허브에 공개됩니다.