본 논문은 대규모 언어 모델(LLM)이 복잡한 순차적 의사결정 과제에서 인간 행동을 시뮬레이션하거나 자동화하는 데 사용되는 상황에서, LLM이 인간과 유사한 의사결정 행동을 보이는지, 그리고 인간과 비교하여 동등하거나 우수한 성능을 달성할 수 있는지에 대한 질문에 초점을 맞추고 있습니다. 인지 과학 및 정신의학 문헌에서 제시된 전형적인 다중 무장 밴딧(MAB) 과제를 사용하여 LLM, 인간 및 MAB 알고리즘의 탐색-활용(E&E) 전략을 비교 연구했습니다. 해석 가능한 선택 모델을 사용하여 각 에이전트의 E&E 전략을 파악하고, 프롬프팅 전략과 추론 강화 모델을 통해 명시적인 추론이 LLM 의사결정에 어떻게 영향을 미치는지 조사했습니다. 연구 결과, 추론은 LLM을 무작위 및 지향적 탐색이 혼합된 인간과 유사한 행동으로 이동시키는 것으로 나타났습니다. 단순한 정상 상태 과제에서는 추론 기반 LLM이 인간과 비슷한 수준의 무작위 및 지향적 탐색을 보였습니다. 그러나 더 복잡한 비정상 상태 환경에서는 특정 시나리오에서 유사한 후회를 달성했음에도 불구하고, 특히 효과적인 지향적 탐색에서 인간의 적응성에 미치지 못했습니다. 본 연구 결과는 인간 행동 시뮬레이터 및 자동화된 의사결정 도구로서 LLM의 가능성과 한계를 모두 강조하며, 개선 가능한 영역을 제시합니다.