본 논문은 체스 도메인에서 확장된 에이전트 상호작용을 통해 대규모 언어 모델(LLM)의 추론 및 지시 따르기 능력의 일반화를 탐구하도록 설계된 평가 프레임워크인 LLM CHESS를 소개합니다. 50개 이상의 오픈 소스 및 클로즈 소스 모델을 무작위 상대를 상대로 플레이하여 승률, 이동 품질, 이동 적법성, 환각 행동, 게임 시간 등 다양한 행동 지표를 사용하여 순위를 매깁니다. 최고의 추론 모델의 하위 집합에 대해, 다양한 기술로 구성된 체스 엔진을 상대로 플레이하여 Elo 추정치를 도출하여 모델 간의 비교를 쉽게 이해할 수 있도록 합니다. 지시 따르기 작업의 단순성과 상대의 약점에도 불구하고, 많은 최첨단 모델이 게임을 완료하거나 일관된 승리를 달성하는 데 어려움을 겪습니다. 다른 복잡한 추론 작업 벤치마크와 유사하게, 실험을 통해 추론 모델과 비추론 모델 간의 명확한 구분이 드러납니다. 기존의 정적 벤치마크와 달리, LLM CHESS의 확률적이고 동적인 특성은 과적합 및 암기를 고유하게 줄이는 동시에 벤치마크 포화를 방지하여 최고의 추론 모델에게도 어려운 과제를 제시합니다. LLM의 추론 및 지시 따르기 능력 평가에 대한 향후 연구를 지원하기 위해 실험 프레임워크, 공개 리더보드 및 관련 게임 데이터 세트를 공개합니다.