Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Measuring General Intelligence with Generated Games

Created by
  • Haebom

저자

Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin

개요

gg-bench는 언어 모델의 일반적인 추론 능력을 평가하기 위해 설계된 게임 환경 모음입니다. 대부분의 정적 벤치마크와 달리, gg-bench는 필요에 따라 새로운 평가 인스턴스를 생성할 수 있는 데이터 생성 프로세스입니다. gg-bench는 (1) 거대 언어 모델(LLM)을 사용하여 새로운 게임의 자연어 설명을 생성하고, (2) LLM을 사용하여 각 게임을 Gym 환경으로 코드로 구현하고, (3) 생성된 게임에서 자가 플레이를 통해 강화 학습(RL) 에이전트를 훈련시키는 방식으로 합성적으로 생성됩니다. 언어 모델은 게임 설명, 현재 게임판 상태, 유효한 이동 목록을 모델에 제시하고, 모델이 선택할 이동을 출력한 후 RL 에이전트에 대한 승률로 평가됩니다. gg-bench는 어려운 벤치마크이며, GPT-4o 및 Claude 3.7 Sonnet과 같은 최첨단 LLM은 컨텍스트 학습을 사용하여 7-9%의 승률을 달성했지만, o1, o3-mini 및 DeepSeek-R1과 같은 추론 모델은 31-36%의 평균 승률을 달성했습니다. 생성된 게임, 데이터 생성 프로세스 및 평가 코드를 공개하여 향후 모델링 작업 및 벤치마크 확장을 지원합니다.

시사점, 한계점

시사점:
새로운 게임을 지속적으로 생성하는 동적 벤치마크를 통해 언어 모델의 일반적인 추론 능력을 더욱 효과적으로 평가할 수 있습니다.
최첨단 LLM과 추론 모델 간의 성능 차이를 명확하게 보여주어 추론 능력 향상을 위한 연구 방향을 제시합니다.
공개된 데이터와 코드를 통해 향후 연구 및 벤치마크 확장에 기여할 수 있습니다.
한계점:
LLM에 의해 생성된 게임의 품질과 다양성에 대한 검증이 필요합니다.
현재 벤치마크의 난이도가 특정 유형의 추론 능력에 편향될 가능성이 있습니다.
LLM과 RL 에이전트의 성능에 따라 벤치마크의 난이도가 변동될 수 있습니다.
👍