본 논문은 자율주행 및 의료 분석과 같이 도덕적으로 민감한 영역에서 점점 더 영향력이 커지고 있는 비전-언어 모델(VLMs)의 도덕적 정렬을 평가하기 위한 포괄적인 벤치마크인 MORALISE를 제시합니다. 기존 연구의 한계점인 텍스트 모달리티에만 초점을 맞추거나 AI 생성 이미지에 의존하는 문제를 극복하기 위해, Turiel의 영역 이론을 기반으로 13가지 도덕적 주제를 제시하고, 전문가 검증을 거친 2,481개의 고품질 이미지-텍스트 쌍을 수동으로 큐레이션했습니다. 각 쌍에는 도덕적 주제 위반 여부와 위반의 모달리티(이미지 또는 텍스트)를 나타내는 두 가지 세분화된 레이블이 부여됩니다. 평가를 위해 도덕적 판단 및 도덕적 규범 귀속 두 가지 작업을 포함하며, 19개의 인기 있는 오픈 및 클로즈 소스 VLM에 대한 광범위한 실험을 통해 최첨단 모델에서 지속적인 도덕적 한계를 보여줍니다. MORALISE 벤치마크는 https://huggingface.co/datasets/Ze1025/MORALISE 에서 공개적으로 이용 가능합니다.