Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess

Created by
  • Haebom
Category
Empty

저자

Sai Kolasani, Maxim Saplin, Nicholas Crispino, Kyle Montgomery, Jared Quincy Davis, Matei Zaharia, Chi Wang, Chenguang Wang

LLM CHESS: 체스 기반 LLM 추론 능력 평가 프레임워크

개요

본 논문은 체스 도메인에서 확장된 에이전트 상호작용을 통해 대규모 언어 모델(LLM)의 추론 및 지시 따르기 능력의 일반화를 탐구하도록 설계된 평가 프레임워크인 LLM CHESS를 소개합니다. 50개 이상의 오픈 소스 및 클로즈 소스 모델을 무작위 상대를 상대로 플레이하여 승률, 이동 품질, 이동 적법성, 환각 행동, 게임 시간 등 다양한 행동 지표를 사용하여 순위를 매깁니다. 최고의 추론 모델의 하위 집합에 대해, 다양한 기술로 구성된 체스 엔진을 상대로 플레이하여 Elo 추정치를 도출하여 모델 간의 비교를 쉽게 이해할 수 있도록 합니다. 지시 따르기 작업의 단순성과 상대의 약점에도 불구하고, 많은 최첨단 모델이 게임을 완료하거나 일관된 승리를 달성하는 데 어려움을 겪습니다. 다른 복잡한 추론 작업 벤치마크와 유사하게, 실험을 통해 추론 모델과 비추론 모델 간의 명확한 구분이 드러납니다. 기존의 정적 벤치마크와 달리, LLM CHESS의 확률적이고 동적인 특성은 과적합 및 암기를 고유하게 줄이는 동시에 벤치마크 포화를 방지하여 최고의 추론 모델에게도 어려운 과제를 제시합니다. LLM의 추론 및 지시 따르기 능력 평가에 대한 향후 연구를 지원하기 위해 실험 프레임워크, 공개 리더보드 및 관련 게임 데이터 세트를 공개합니다.

시사점, 한계점

LLM의 추론 및 지시 따르기 능력 평가를 위한 새로운 프레임워크 제시.
체스 환경에서의 에이전트 상호작용을 통해 일반화 능력 테스트.
다양한 모델의 성능을 측정하고 순위를 매기는 데 사용되는 여러 행동 지표.
Elo 추정치를 통해 모델 간의 비교 용이성 제공.
과적합 및 벤치마크 포화 문제를 완화하는 동적 환경.
일부 최첨단 모델조차도 게임 완료 및 일관된 승리 달성에 어려움을 겪음.
프레임워크, 리더보드 및 데이터 세트 공개.
모델의 실제 체스 전략, 전술 이해 및 깊이 있는 사고 능력을 직접적으로 평가하는 정도에 대한 추가적인 분석 필요.
무작위 상대 및 다양한 기술 설정에서의 상대에 따른 결과의 차이에 대한 추가 연구 필요.
평가 결과의 일반화 가능성에 대한 추가적인 검증 필요.
👍