본 논문은 기존의 사회적 지능 평가 벤치마크인 Social-IQ의 한계점을 지적하고, 이를 극복하기 위한 새로운 모델인 VEGAS를 제안합니다. 기존 모델들이 주로 언어 모달리티에 의존하고 시각적 맥락을 간과하며, 닫힌 형태의 객관식 문제만 다룬다는 점을 문제 삼습니다. VEGAS는 생성형 다중 모달 모델로, 열린 형태의 답변을 통해 추론 과정을 설명하고 시각적 정보를 효과적으로 활용하도록 설계되었습니다. 새로운 샘플링 전략과 GIFT(Generalist Instruction Fine-Tuning)를 통해 모델의 시각적 정보 해석 능력을 향상시키고, 다양한 실험을 통해 VEGAS가 시각 정보를 활용하여 정확하고 신뢰할 수 있는 답변을 생성함을 보여줍니다. 궁극적으로 인간과 같은 사회적 AI 개발에 기여할 것으로 기대합니다.