Sign In

Are Large Vision Language Models Good Game Players?

Created by
  • Haebom
Category
Empty

저자

Xinyu Wang, Bohan Zhuang, Qi Wu

개요

본 논문은 기존의 시각 언어 모델(LVLM) 평가 방식의 한계점을 지적하며, 게임 기반의 새로운 평가 프레임워크인 \method{}를 제안합니다. 기존 방식은 시각적 세부 인지, 데이터 오염, 다중 턴 추론 등을 제대로 평가하지 못한다는 점을 문제 삼고 있습니다. \method{}는 지각, 질의응답, 규칙 준수, 종단 간 플레이 등 네 가지 핵심 과제를 통해 LVLM의 인지 및 추론 능력을 종합적으로 평가하도록 설계되었습니다. 각 과제는 시각적 지각, 추론, 의사결정 등 특정 능력을 평가하도록 고안되었으며, 실험을 통해 현재 LVLM의 한계 (예: 긴 구조화된 출력 처리, 세밀하고 밀집된 요소 인지)를 탐구합니다. 코드와 데이터는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
기존 LVLM 평가 방식의 한계를 명확히 제시하고, 보다 포괄적인 평가 프레임워크인 \method{}를 제안.
게임 기반 평가를 통해 LVLM의 인지 및 추론 능력을 다각적으로 평가 가능.
LVLM의 세부적인 능력(시각적 지각, 추론, 의사결정 등)을 개별적으로 평가 가능.
공개된 코드와 데이터를 통해 연구의 재현성 및 확장성 확보.
한계점:
\method{}의 게임 디자인이 LVLM의 모든 능력을 완벽하게 포괄하는지에 대한 검증 필요.
게임 환경이 실제 세계의 복잡성을 충분히 반영하는지에 대한 추가 연구 필요.
특정 게임에 대한 LVLM의 성능이 실제 응용 성능과 얼마나 잘 상관관계를 갖는지에 대한 추가 연구 필요.
👍