Sign In

LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory

Created by
  • Haebom
Category
Empty

저자

Jingru Jia, Zehua Yuan, Junhao Pan, Paul E. McNamara, Deming Chen

개요

본 논문은 대규모 언어 모델(LLM)의 전략적 의사 결정 능력을 평가하기 위해 행동 게임 이론에 기반한 평가 프레임워크를 제시한다. 22개의 최첨단 LLM을 대상으로 테스트를 진행하여, GPT-o3-mini, GPT-o1, DeepSeek-R1이 대부분의 게임에서 우위를 점한다는 것을 발견했다. 또한, 모델 규모가 성능을 결정짓는 유일한 요소는 아니며, Chain-of-Thought (CoT) 프롬프팅이 모든 모델에 일관된 효과를 보이지 않음을 확인했다. 나아가, 모델 내에 내재된 편향성을 밝혀, 특정 인구 통계학적 특성이 의사 결정 패턴에 영향을 미치는 것을 관찰했다.

시사점, 한계점

시사점:
LLM의 전략적 추론 능력을 평가하는 새로운 프레임워크 제시.
특정 LLM이 다른 모델보다 우수한 전략적 능력을 보임.
CoT 프롬프팅의 효과가 모델에 따라 다름.
LLM에 내재된 성별 및 성적 지향성에 따른 편향성을 발견.
한계점:
모델 규모가 성능을 절대적으로 보장하지 않음.
CoT 프롬프팅이 모든 모델에 긍정적인 영향을 미치지 않음.
모델의 인구 통계학적 특성에 따른 편향성이 존재.
👍