[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Created by
  • Haebom

저자

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 공정성, 윤리성, 공감 능력, 포용성 등 인간 중심의 기준 충족에 대한 어려움을 지적하며, 이를 평가하기 위한 새로운 벤치마크인 HumaniBench를 제시합니다. HumaniBench는 GPT-4o를 활용한 확장 가능한 파이프라인과 전문가 검증을 통해 생성된 32,000개의 실제 이미지 질문 쌍으로 구성되며, 공정성, 윤리성, 이해력, 추론 능력, 언어적 포용성, 공감 능력, 견고성 등 7가지 인간 중심 AI(HCAI) 원칙을 평가합니다. 15개의 최첨단 LMM을 대상으로 한 벤치마킹 결과, 독점 모델이 일반적으로 우수한 성능을 보였으나, 견고성과 시각적 근거 제시 측면에서는 여전히 부족함을 드러냈습니다. 일부 오픈소스 모델 또한 정확성과 인간 중심 원칙 준수 간의 균형을 맞추는 데 어려움을 보였습니다. HumaniBench는 HCAI 원칙에 초점을 맞춘 최초의 벤치마크로, LMM의 정렬 격차를 진단하고 정확성과 사회적 책임을 모두 충족하는 행동을 유도하는 엄격한 테스트베드를 제공합니다. 데이터셋, 주석 프롬프트 및 평가 코드는 https://vectorinstitute.github.io/HumaniBench 에서 이용 가능합니다.

시사점, 한계점

시사점:
인간 중심 AI 원칙을 평가하는 최초의 종합적인 벤치마크를 제공합니다.
LMM의 인간 중심 기준 충족 수준을 정량적으로 평가하고 개선 방향을 제시합니다.
독점 모델과 오픈소스 모델 간의 성능 차이 및 한계점을 명확히 보여줍니다.
HCAI 원칙 준수와 정확성 사이의 균형 문제를 부각합니다.
한계점:
벤치마크에 포함된 데이터셋의 규모와 다양성이 향후 더욱 확장될 필요가 있습니다.
GPT-4o를 활용한 주석 생성 과정의 편향 가능성에 대한 추가적인 검토가 필요합니다.
모든 인간 중심 AI 원칙을 완벽하게 포괄하지 못할 수 있습니다.
벤치마크 결과가 특정 모델이나 데이터셋에 편향될 가능성을 배제할 수 없습니다.
👍