Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Affordance Benchmark for MLLMs

Created by
  • Haebom

저자

Junying Wang, Wenzhe Li, Yalun Wu, Yingji Liang, Yijin Guo, Chunyi Li, Haodong Duan, Zicheng Zhang, Guangtao Zhai

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 affordance 인식 능력을 평가하기 위한 새로운 벤치마크인 A4Bench를 제시합니다. A4Bench는 구성적 affordance(물체의 고유한 속성 이해)와 변형적 affordance(상황적, 문화적, 개인적 요소에 따른 affordance 이해)의 두 가지 측면을 평가하며, 1,282개의 질의응답 쌍과 718개의 질의응답 쌍으로 구성됩니다. 17개의 MLLM(독점 모델 9개, 오픈소스 모델 8개)을 사람의 성능과 비교 평가한 결과, 독점 모델이 오픈소스 모델보다 성능이 우수하지만, 모든 모델이 affordance 인식, 특히 변형적 affordance 인식에 제한된 능력을 보이는 것으로 나타났습니다. 최고 성능 모델인 Gemini-2.0-Pro조차도 사람의 성능에는 크게 못 미치는 것으로 확인되었습니다. 이 연구는 MLLM의 환경 이해에 대한 중요한 한계를 강조하며, 더욱 견고하고 상황 인식적인 AI 시스템 개발을 위한 기반을 제공합니다. 데이터셋은 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
MLLM의 affordance 인식 능력에 대한 종합적인 평가 벤치마크 A4Bench 제시
독점 MLLM이 오픈소스 MLLM보다 우수한 성능을 보임을 확인
MLLM의 affordance 인식, 특히 변형적 affordance 인식 능력의 한계를 명확히 제시
MLLM의 환경 이해 능력 향상을 위한 연구 방향 제시
A4Bench 데이터셋 공개를 통한 후속 연구 지원
한계점:
현재 벤치마크의 평가 대상이 제한적임 (17개의 MLLM)
사람의 affordance 인식 능력에 대한 표준화된 측정이 부족할 수 있음
벤치마크의 구성적 affordance와 변형적 affordance의 정의 및 구분에 대한 추가적인 논의 필요
다양한 환경과 상황에 대한 affordance 인식 능력 평가의 한계
👍