Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Created by
  • Haebom
Category
Empty

저자

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

개요

본 논문은 시각적 질의 응답(VQA), 이미지 캡셔닝, 시각적 접지 등의 시각-언어 과제에서 인상적인 성과를 거둔 대규모 멀티모달 모델(LMM)의 인간 중심적 가치(공정성, 윤리, 포용성 등)와의 정렬에 대한 평가 부족 문제를 해결하고자 한다. 이를 위해, 32,000개의 실제 이미지-질의 쌍과 평가 스위트로 구성된 종합적인 벤치마크 HumaniBench를 제시한다. 반자동 주석 파이프라인을 사용하여 각 샘플을 도메인 전문가가 검증하여 정확성과 윤리적 무결성을 보장한다. HumaniBench는 공정성, 윤리, 공감, 포용성, 추론, 견고성, 다국어 지원 등 7가지 주요 정렬 원칙에 대해 다양한 개방형 및 폐쇄형 VQA 과제를 통해 LMM을 평가한다. AI 윤리 이론과 실제 사회적 맥락에 기반하여, 이러한 원칙은 인간 중심적 행동을 검사하기 위한 전체론적 관점을 제공한다. 벤치마킹 결과, 특정 모델 계열은 추론, 공정성, 다국어 지원에 뛰어나고, 다른 모델은 더 나은 견고성과 접지 능력을 보여준다. 하지만, 대부분의 모델은 과제 정확도와 윤리적이고 포용적인 응답 사이의 균형을 맞추는 데 여전히 어려움을 겪고 있다. 체인 오브 씽킹(chain-of-thought) 프롬프팅 및 테스트 시간 스케일링과 같은 기술은 측정 가능한 정렬 향상을 가져온다. HumaniBench는 HC 평가를 위해 명시적으로 설계된 최초의 벤치마크로서, 한계를 진단하고, 정렬 트레이드 오프를 정량화하며, 대규모 멀티모달 모델의 책임감 있는 개발을 촉진하는 엄격한 테스트베드를 제공한다.

시사점, 한계점

시사점:
인간 중심적 가치에 대한 LMM의 평가 부족 문제를 해결하기 위한 종합적인 벤치마크 HumaniBench 개발.
공정성, 윤리, 공감, 포용성, 추론, 견고성, 다국어 지원 등 7가지 핵심 정렬 원칙을 기반으로 한 LMM 평가.
다양한 모델의 성능 평가 및 모델 간 행동 패턴 차이 분석.
체인 오브 씽킹 프롬프팅 및 테스트 시간 스케일링과 같은 기술을 통한 정렬 향상 가능성 제시.
LMM의 책임감 있는 개발을 위한 엄격한 테스트베드 제공.
한계점:
대부분의 모델이 과제 정확도와 윤리적/포용적 응답 사이의 균형을 맞추는 데 어려움을 겪음.
👍