본 논문은 대규모 언어 모델(LLM)의 탐색 능력을 Little Alchemy 2 게임을 이용하여 평가한 연구입니다. 인간과 LLM을 비교하여, 열린 끝을 가진 과제에서의 탐색 능력을 분석했습니다. 대부분의 LLM은 인간보다 성능이 낮았지만, o1 모델은 예외적으로 좋은 성능을 보였습니다. 기존의 LLM은 불확실성 기반 전략에 의존하는 반면, 인간은 불확실성과 효능을 균형 있게 고려하는 것으로 나타났습니다. GPT-4o와 같은 추론 중심의 LLM은 빠르고 세부적인 추론 과정이 부족하여 탐색 성능이 제한적이었으며, DeepSeek 모델은 반복적인 분석을 통해 인간과 유사한 탐색 전략을 보였습니다. Sparse Autoencoders(SAE)를 이용한 분석 결과, LLM은 불확실성과 선택을 초기 단계에서 처리하고 효능은 후반부에 처리하여, 너무 빠른 판단을 내리고 효과적인 탐색을 저해하는 것으로 나타났습니다. 결론적으로, 본 연구는 LLM의 탐색 능력의 한계를 밝히고, 적응력 향상을 위한 방향을 제시합니다.