BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games
Created by
Haebom
저자
Davide Paglieri, Bart{\l}omiej Cupia{\l}, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, {\L}ukasz Kucinski, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktaschel
개요
BALROG는 대규모 언어 모델(LLM)과 비전 언어 모델(VLM)의 에이전트 능력을 평가하기 위해 다양한 어려움 수준의 게임으로 구성된 새로운 벤치마크입니다. 기존 강화 학습 환경을 다양하게 포함하며, 몇 초 만에 해결 가능한 간단한 작업부터 수년이 걸릴 수 있는 매우 어려운 작업(예: NetHack Learning Environment)까지 다양한 난이도의 과제를 제공합니다. 여러 오픈소스 및 클로즈드소스 LLM과 VLM을 광범위하게 평가하여, 현재 모델이 쉬운 게임에서는 부분적으로 성공하지만 더 어려운 과제에서는 상당히 어려움을 겪는다는 것을 발견했습니다. 특히 시각적 표현이 제공될 때 여러 모델의 성능이 저하되는 것을 확인하여 시각 기반 의사 결정에 심각한 결함이 있음을 보여줍니다. BALROG는 개방적이고 사용자 친화적인 벤치마크로 제공되어 에이전트 연구 개발을 촉진합니다. 코드와 리더보드는 balrogai.com에서 확인할 수 있습니다.
시사점, 한계점
•
시사점: LLM 및 VLM의 에이전트 능력을 종합적으로 평가할 수 있는 새로운 벤치마크(BALROG)를 제공합니다. 현재 모델의 강점과 약점을 명확하게 보여주는 실험 결과를 제시합니다. 특히 시각 정보 처리 능력의 부족을 드러냅니다. 향후 연구 개발을 위한 공개 벤치마크를 제공합니다.
•
한계점: 벤치마크의 난이도가 매우 높아 현재 모델의 성능이 제한적일 수 있습니다. 시각 기반 의사 결정에 대한 추가 연구가 필요합니다. 더욱 다양한 유형의 게임 및 과제를 포함하여 벤치마크를 확장할 수 있습니다.