gg-bench는 언어 모델의 일반적인 추론 능력을 평가하기 위해 설계된 게임 환경 모음입니다. 대부분의 정적 벤치마크와 달리, gg-bench는 필요에 따라 새로운 평가 인스턴스를 생성할 수 있는 데이터 생성 프로세스입니다. gg-bench는 (1) 거대 언어 모델(LLM)을 사용하여 새로운 게임의 자연어 설명을 생성하고, (2) LLM을 사용하여 각 게임을 Gym 환경으로 코드로 구현하고, (3) 생성된 게임에서 자가 플레이를 통해 강화 학습(RL) 에이전트를 훈련시키는 방식으로 합성적으로 생성됩니다. 언어 모델은 게임 설명, 현재 게임판 상태, 유효한 이동 목록을 모델에 제시하고, 모델이 선택할 이동을 출력한 후 RL 에이전트에 대한 승률로 평가됩니다. gg-bench는 어려운 벤치마크이며, GPT-4o 및 Claude 3.7 Sonnet과 같은 최첨단 LLM은 컨텍스트 학습을 사용하여 7-9%의 승률을 달성했지만, o1, o3-mini 및 DeepSeek-R1과 같은 추론 모델은 31-36%의 평균 승률을 달성했습니다. 생성된 게임, 데이터 생성 프로세스 및 평가 코드를 공개하여 향후 모델링 작업 및 벤치마크 확장을 지원합니다.