HumaniBench는 대규모 다중 모달 모델(LMM)의 공정성, 윤리, 공감, 포용성 등 인간 중심의 기준 충족 여부를 평가하는 새로운 벤치마크입니다. 32,000개의 실제 이미지 질문 쌍으로 구성되며, GPT-4o 기반의 확장 가능한 파이프라인을 통해 주석이 달리고 전문가에 의해 검증되었습니다. 공정성, 윤리, 이해, 추론, 언어 포용성, 공감, 강건성 등 7가지 인간 중심 AI(HCAI) 원칙을 평가하며, 개방형 및 폐쇄형 시각적 질문 응답(VQA), 다국어 QA, 시각적 근거, 공감적 캡션 생성, 강건성 테스트 등 7가지 다양한 작업을 포함합니다. 15개의 최첨단 LMM을 벤치마킹한 결과, 독점 모델이 일반적으로 우수하지만 강건성과 시각적 근거는 여전히 취약점으로 드러났습니다. 일부 오픈소스 모델은 정확성과 인간 중심 원칙 준수 간의 균형을 맞추는 데 어려움을 겪습니다. HumaniBench는 HCAI 원칙을 중심으로 구축된 최초의 벤치마크이며, LMM의 정렬 차이를 진단하고 정확하고 사회적으로 책임감 있는 행동을 유도하는 엄격한 테스트베드를 제공합니다.