Sign In

DSGBench: A Diverse Strategic Game Benchmark for Evaluating LLM-based Agents in Complex Decision-Making Environments

Created by
  • Haebom
Category
Empty

저자

Wenjie Tang, Yuan Zhou, Erqiang Xu, Keyan Cheng, Minne Li, Liquan Xiao

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 전략적 의사결정 능력을 평가하기 위한 새로운 벤치마크인 DSGBench를 제시합니다. 기존 벤치마크의 한계점인 단일 목표 과제에 대한 초점 및 과도하게 광범위한 평가 지표 사용을 극복하고자, DSGBench는 장기적이고 다차원적인 의사결정을 요구하는 6가지 복잡한 전략 게임을 포함합니다. 또한, 5가지 차원에 걸친 세분화된 평가 점수 시스템과 자동화된 의사결정 추적 메커니즘을 통해 에이전트의 행동 패턴 및 전략 변화에 대한 심층 분석을 가능하게 합니다. 다양한 LLM 기반 에이전트에 대한 실험 결과를 통해 DSGBench가 에이전트 선택 및 향상에 유용한 통찰력을 제공함을 보여줍니다. DSGBench는 GitHub에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
LLM 기반 에이전트의 전략적 의사결정 능력을 종합적으로 평가할 수 있는 새로운 벤치마크 제공
세분화된 평가 지표를 통해 에이전트의 강점과 약점을 정확하게 파악 가능
자동화된 의사결정 추적 메커니즘을 통한 심층 분석 가능
LLM 기반 에이전트의 개발 및 개선에 중요한 정보 제공
한계점:
제시된 6가지 게임의 일반성 및 다른 유형의 전략적 의사결정 과제에 대한 적용 가능성에 대한 추가 연구 필요
평가 지표의 최적화 및 개선에 대한 지속적인 연구 필요
DSGBench의 확장성 및 다양한 LLM 에이전트에 대한 적용성에 대한 추가 검증 필요
👍