HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation
Created by
Haebom
저자
Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya
개요
본 논문은 대규모 다중 모달 모델(LMMs)의 공정성, 윤리성, 공감 능력, 포용성 등 인간 중심의 기준 충족에 대한 어려움을 지적하며, 이를 평가하기 위한 새로운 벤치마크인 HumaniBench를 제시합니다. HumaniBench는 GPT-4o를 활용한 확장 가능한 파이프라인과 전문가 검증을 통해 생성된 32,000개의 실제 이미지 질문 쌍으로 구성되며, 공정성, 윤리성, 이해력, 추론 능력, 언어적 포용성, 공감 능력, 견고성 등 7가지 인간 중심 AI(HCAI) 원칙을 평가합니다. 15개의 최첨단 LMM을 대상으로 한 벤치마킹 결과, 독점 모델이 일반적으로 우수한 성능을 보였으나, 견고성과 시각적 근거 제시 측면에서는 여전히 부족함을 드러냈습니다. 일부 오픈소스 모델 또한 정확성과 인간 중심 원칙 준수 간의 균형을 맞추는 데 어려움을 보였습니다. HumaniBench는 HCAI 원칙에 초점을 맞춘 최초의 벤치마크로, LMM의 정렬 격차를 진단하고 정확성과 사회적 책임을 모두 충족하는 행동을 유도하는 엄격한 테스트베드를 제공합니다. 데이터셋, 주석 프롬프트 및 평가 코드는 https://vectorinstitute.github.io/HumaniBench 에서 이용 가능합니다.