Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games

Created by
  • Haebom
Category
Empty

저자

Yuchen Li, Cong Lin, Muhammad Umair Nasir, Philip Bontrager, Jialin Liu, Julian Togelius

개요

본 논문은 대규모 언어 모델(LLM)의 추론 및 문제 해결 능력을 평가하기 위한 비디오 게임 벤치마크인 GVGAI-LLM을 소개합니다. General Video Game AI 프레임워크를 기반으로 하며, 다양한 아케이드 스타일 게임을 포함하여 기존 LLM 벤치마크와 다른 유형의 과제를 테스트합니다. 이 벤치마크는 새로운 게임과 레벨을 빠르게 생성할 수 있는 게임 설명 언어를 사용하며, LLM이 효율적으로 처리할 수 있도록 각 게임 장면을 ASCII 문자로 표현합니다. GVGAI-LLM은 의미 있는 단계 비율, 단계 효율성 및 전체 점수를 포함한 해석 가능한 메트릭을 정의합니다. 다양한 게임과 레벨에서 제로샷 평가를 통해 LLM의 공간 추론 및 기본적인 계획 능력에 대한 지속적인 한계를 확인했습니다.

시사점, 한계점

시사점:
LLM의 에이전트 행동 및 컨텍스트 추론 연구를 위한 재현 가능한 테스트베드를 제공합니다.
공간 추론 및 기본적인 계획 능력에서 LLM의 한계를 밝혀냈습니다.
구조화된 프롬프팅 및 공간적 기반 기술의 필요성을 제시했습니다.
한계점:
현재 LLM은 공간 및 논리적 오류를 지속적으로 보입니다.
벤치마크가 아직 해결되지 않았으며, 개선의 여지가 많습니다.
👍