Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

lmgame-Bench: How Good are LLMs at Playing Games?

Created by
  • Haebom

저자

Lanxiang Hu, Mingjia Huo, Yuxuan Zhang, Haoyang Yu, Eric P. Xing, Ion Stoica, Tajana Rosing, Haojian Jin, Hao Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 게임 플레이 능력 평가에 대한 어려움과 이를 해결하기 위한 새로운 벤치마크인 lmgame-Bench를 제시한다. LLM을 게임에 직접 적용하는 방식의 문제점으로 취약한 시각적 인식, 프롬프트 민감도, 데이터 오염 가능성을 지적하고, lmgame-Bench는 플랫포머, 퍼즐, 내러티브 게임을 통합된 Gym 스타일 API를 통해 제공하며, 경량의 지각 및 기억 스캐폴드와 함께 프롬프트 변동성을 안정화하고 오염을 제거하도록 설계되었다고 설명한다. 13개의 주요 모델을 대상으로 lmgame-Bench가 모델들을 잘 구분하면서도 어려운 과제임을 보여주고, 상관 분석을 통해 각 게임이 다른 곳에서 개별적으로 테스트되는 능력들을 독특하게 결합하여 평가함을 확인했다. 또한, lmgame-Bench의 단일 게임에서 강화 학습을 수행하면 보이지 않는 게임과 외부 계획 작업 모두에 전이 학습이 가능함을 보였다.

시사점, 한계점

시사점:
LLM의 게임 플레이 능력 평가를 위한 새로운 벤치마크인 lmgame-Bench를 제시하였다.
lmgame-Bench는 다양한 게임 유형과 경량 스캐폴드를 통해 LLM의 다양한 능력을 평가할 수 있다.
lmgame-Bench에서의 강화 학습은 전이 학습 가능성을 보여준다.
각 게임이 LLM의 고유한 능력 조합을 평가하는 것을 보여줌으로써, LLM의 다각적 능력 평가에 기여한다.
한계점:
현재 벤치마크에 포함된 게임의 종류가 제한적일 수 있다.
더욱 다양하고 복잡한 게임 환경에 대한 확장이 필요할 수 있다.
lmgame-Bench의 평가 방식 자체의 한계점에 대한 추가적인 연구가 필요할 수 있다.
👍