Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs

Created by
  • Haebom

저자

Haochuan Wang, Xiachong Feng, Lei Li, Yu Guo, Zhanyue Qin, Dianbo Sui, Lingpeng Kong

개요

본 논문은 대규모 언어 모델(LLM)의 전략적 추론 능력 평가를 위한 새로운 벤치마크인 TMGBench를 제안한다. 기존 연구의 한계인 제한적인 게임 유형, 데이터 유출 위험, 확장성 부족 문제를 해결하기 위해, TMGBench는 로빈슨-고포스 위상학에 기반한 144가지 2x2 게임 유형을 포함하고, 각 게임에 다양한 시나리오(스토리 기반 게임)를 제공한다. 또한, 순차적, 병렬적, 중첩적 구조를 통해 게임들을 복잡하게 구성하여, 점점 강력해지는 LLM을 지속적으로 평가할 수 있는 확장 가능한 프레임워크를 제공한다. 실험 결과, 최신 LLM들도 전략적 추론의 정확성과 일관성, Theory-of-Mind 능력에서 여전히 결함을 가지고 있으며, 복잡한 게임 구조에서도 어려움을 겪는다는 것을 보여준다.

시사점, 한계점

시사점:
LLM의 전략적 추론 능력 평가를 위한 종합적이고 확장 가능한 벤치마크(TMGBench) 제시.
다양한 게임 유형과 시나리오를 통해 LLM의 추론 능력을 포괄적으로 평가 가능.
최신 LLM의 전략적 추론 및 Theory-of-Mind 능력의 현황과 한계를 명확히 제시.
순차적, 병렬적, 중첩적 게임 구조를 통한 LLM의 복잡한 추론 능력 평가 가능성 제시.
한계점:
TMGBench의 복잡성으로 인한 평가 비용 증가 가능성.
새로운 게임 유형이나 시나리오 추가 및 유지보수의 어려움.
현재 평가된 LLM 외 다른 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
Theory-of-Mind 능력 평가의 객관성 및 신뢰도에 대한 추가 검증 필요.
👍