본 논문은 대규모 언어 모델(LLM)의 의사결정 지원 능력을 평가하는 새로운 프레임워크를 제시합니다. 기존 평가 방식이 LLM의 잠재적 능력만을 평가하는 한계를 극복하고자, 다양한 상황을 생성하는 절차적 비네트 생성 방식을 통해 맥락의 영향을 체계적으로 분석합니다. 동일한 게임 구조에 대해 다양한 맥락을 적용하여 LLM의 의사결정 패턴을 분석한 결과, 맥락에 따른 응답의 변동성이 크다는 것을 발견했습니다. 이러한 변동성은 예측 가능하지만 프레이밍 효과에 매우 민감하게 반응하며, 실제 환경에서 LLM을 적용하기 위해서는 맥락을 고려하는 동적인 평가 방법론이 필요함을 강조합니다.