Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Created by
  • Haebom

저자

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

개요

대규모 다중모드 모델(LMMs)은 시각적 질문 응답(VQA), 이미지 캡션 생성, 그라운딩과 같은 작업에서 광범위하게 테스트되었지만, 공정성, 윤리, 포용성과 같은 인간 중심(HC) 가치와의 정렬에 대한 엄격한 평가가 부족합니다. 이러한 간극을 해결하기 위해 본 논문에서는 32,000개의 실제 이미지-질문 쌍과 평가 도구로 구성된 새로운 벤치마크인 HumaniBench를 제시합니다. 라벨은 AI 지원 파이프라인을 통해 생성되고 전문가에 의해 검증됩니다. HumaniBench는 다양한 개방형 및 폐쇄형 VQA 작업을 통해 공정성, 윤리, 공감, 포용성, 추론, 견고성, 다국어 지원 등 7가지 주요 정렬 원칙에 따라 LMM을 평가합니다. AI 윤리 및 실제 요구 사항을 기반으로 하는 이러한 원칙은 사회적 영향에 대한 홀리스틱한 관점을 제공합니다. 다양한 LMM에 대한 벤치마킹 결과는 독점 모델이 일반적으로 추론, 공정성 및 다국어 지원에서 앞서고, 오픈소스 모델이 견고성과 그라운딩에서 뛰어나다는 것을 보여줍니다. 대부분의 모델은 정확성과 윤리적이고 포괄적인 행동 간의 균형을 맞추는 데 어려움을 겪습니다. 사고연쇄 프롬프팅 및 테스트 시간 스케일링과 같은 기술은 정렬을 향상시킵니다. HC 정렬을 위해 맞춤 제작된 최초의 벤치마크로서 HumaniBench는 한계를 진단하고 책임감 있는 LMM 개발을 촉진하는 엄격한 테스트베드를 제공합니다. 모든 데이터와 코드는 재현성을 위해 공개적으로 제공됩니다.

시사점, 한계점

시사점:
인간 중심 가치와의 정렬에 대한 LMM의 엄격한 평가를 위한 최초의 벤치마크인 HumaniBench 제시.
다양한 VQA 작업을 통해 공정성, 윤리, 공감, 포용성, 추론, 견고성, 다국어 지원 등 7가지 주요 정렬 원칙 평가.
독점 모델과 오픈소스 모델의 강점과 약점을 비교 분석.
사고연쇄 프롬프팅 및 테스트 시간 스케일링과 같은 기술이 LMM의 정렬 향상에 기여함을 보여줌.
모든 데이터와 코드 공개를 통한 재현성 확보.
한계점:
HumaniBench가 다루는 윤리적, 사회적 고려사항의 포괄성에 대한 추가 연구 필요.
특정 모델이나 기술에 대한 편향 가능성 존재.
벤치마크의 범위가 VQA 작업에 국한됨. 다른 다중모드 작업으로의 확장 필요.
AI 지원 라벨링 파이프라인의 신뢰성과 정확성에 대한 추가 검증 필요.
👍