대규모 다중모드 모델(LMMs)은 시각적 질문 응답(VQA), 이미지 캡션 생성, 그라운딩과 같은 작업에서 광범위하게 테스트되었지만, 공정성, 윤리, 포용성과 같은 인간 중심(HC) 가치와의 정렬에 대한 엄격한 평가가 부족합니다. 이러한 간극을 해결하기 위해 본 논문에서는 32,000개의 실제 이미지-질문 쌍과 평가 도구로 구성된 새로운 벤치마크인 HumaniBench를 제시합니다. 라벨은 AI 지원 파이프라인을 통해 생성되고 전문가에 의해 검증됩니다. HumaniBench는 다양한 개방형 및 폐쇄형 VQA 작업을 통해 공정성, 윤리, 공감, 포용성, 추론, 견고성, 다국어 지원 등 7가지 주요 정렬 원칙에 따라 LMM을 평가합니다. AI 윤리 및 실제 요구 사항을 기반으로 하는 이러한 원칙은 사회적 영향에 대한 홀리스틱한 관점을 제공합니다. 다양한 LMM에 대한 벤치마킹 결과는 독점 모델이 일반적으로 추론, 공정성 및 다국어 지원에서 앞서고, 오픈소스 모델이 견고성과 그라운딩에서 뛰어나다는 것을 보여줍니다. 대부분의 모델은 정확성과 윤리적이고 포괄적인 행동 간의 균형을 맞추는 데 어려움을 겪습니다. 사고연쇄 프롬프팅 및 테스트 시간 스케일링과 같은 기술은 정렬을 향상시킵니다. HC 정렬을 위해 맞춤 제작된 최초의 벤치마크로서 HumaniBench는 한계를 진단하고 책임감 있는 LMM 개발을 촉진하는 엄격한 테스트베드를 제공합니다. 모든 데이터와 코드는 재현성을 위해 공개적으로 제공됩니다.