대규모 언어 모델(LLM)의 탐험-활용(E&E) 전략을 연구하기 위해, 인지 과학 및 정신과 문헌에서 소개된 전형적인 다중 팔 밴딧(MAB) 실험을 사용합니다. LLM, 인간, MAB 알고리즘의 E&E 전략을 비교 연구하고, 프롬프트 전략 및 사고 모델을 통해 사고의 흔적을 활성화하는 것이 LLM의 의사 결정에 어떤 영향을 미치는지 조사합니다. 연구 결과에 따르면, 사고를 활성화하면 LLM의 행동이 인간과 유사하게 변화하며, 단순한 환경에서는 인간과 유사한 수준의 탐험을 보이지만, 더 복잡한 비정상 환경에서는 효과적인 지향적 탐험에서 인간의 적응성을 따라가지 못합니다.