본 논문은 다양한 모달리티(텍스트, 이미지, 텍스트+이미지, 서체 이미지)로 표현된 40개의 다양한 페르소나를 포함하는 새로운 데이터셋을 제시합니다. 이 데이터셋을 사용하여 5개의 다중 모달리티 LLM이 각 페르소나를 얼마나 잘 구현하는지 60개의 질문과 측정 지표를 사용하여 체계적으로 평가합니다. 실험 결과, 상세한 텍스트로 표현된 페르소나는 더 많은 언어적 습관을 보이는 반면, 서체 이미지는 페르소나와 더 일관성 있는 결과를 보였습니다. LLM이 이미지를 통해 전달되는 페르소나 특징을 종종 간과하는 현상을 발견하여, 이러한 한계를 강조하고 향후 연구 방향을 제시합니다. 데이터와 코드는 깃허브에 공개되었습니다.