Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Created by
  • Haebom

저자

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

개요

HumaniBench는 대규모 다중 모달 모델(LMM)의 공정성, 윤리, 공감, 포용성 등 인간 중심의 기준 충족 여부를 평가하는 새로운 벤치마크입니다. 32,000개의 실제 이미지 질문 쌍으로 구성되며, GPT-4o 기반의 확장 가능한 파이프라인을 통해 주석이 달리고 전문가에 의해 검증되었습니다. 공정성, 윤리, 이해, 추론, 언어 포용성, 공감, 강건성 등 7가지 인간 중심 AI(HCAI) 원칙을 평가하며, 개방형 및 폐쇄형 시각적 질문 응답(VQA), 다국어 QA, 시각적 근거, 공감적 캡션 생성, 강건성 테스트 등 7가지 다양한 작업을 포함합니다. 15개의 최첨단 LMM을 벤치마킹한 결과, 독점 모델이 일반적으로 우수하지만 강건성과 시각적 근거는 여전히 취약점으로 드러났습니다. 일부 오픈소스 모델은 정확성과 인간 중심 원칙 준수 간의 균형을 맞추는 데 어려움을 겪습니다. HumaniBench는 HCAI 원칙을 중심으로 구축된 최초의 벤치마크이며, LMM의 정렬 차이를 진단하고 정확하고 사회적으로 책임감 있는 행동을 유도하는 엄격한 테스트베드를 제공합니다.

시사점, 한계점

시사점:
HCAI 원칙을 중심으로 구축된 최초의 종합적인 벤치마크 제공
LMM의 인간 중심 기준 충족 여부에 대한 객관적 평가 가능
LMM 개발 방향에 대한 중요한 시사점 제공 (정확성과 사회적 책임감 있는 행동의 균형)
독점 모델과 오픈소스 모델 간 성능 비교를 통한 개발 방향 제시
한계점:
벤치마크에 포함된 LMM의 수가 제한적일 수 있음 (15개 모델)
벤치마크의 구성 및 평가 방식에 대한 추가적인 검증 필요
모든 인간 중심의 윤리적 고려 사항을 완벽히 반영하지 못할 가능성 존재
강건성 및 시각적 근거 영역에서 LMM의 성능이 여전히 부족함
👍