Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Experiments

Created by
  • Haebom

저자

Ziyuan Zhang, Darcy Wang, Ningyuan Chen, Rodrigo Mansur, Vahid Sarhangian

개요

대규모 언어 모델(LLM)의 탐험-활용(E&E) 전략을 연구하기 위해, 인지 과학 및 정신과 문헌에서 소개된 전형적인 다중 팔 밴딧(MAB) 실험을 사용합니다. LLM, 인간, MAB 알고리즘의 E&E 전략을 비교 연구하고, 프롬프트 전략 및 사고 모델을 통해 사고의 흔적을 활성화하는 것이 LLM의 의사 결정에 어떤 영향을 미치는지 조사합니다. 연구 결과에 따르면, 사고를 활성화하면 LLM의 행동이 인간과 유사하게 변화하며, 단순한 환경에서는 인간과 유사한 수준의 탐험을 보이지만, 더 복잡한 비정상 환경에서는 효과적인 지향적 탐험에서 인간의 적응성을 따라가지 못합니다.

시사점, 한계점

LLM은 인간 행동 시뮬레이터 및 자동화된 의사 결정 도구로서의 잠재력을 보여주지만, 한계점 또한 존재합니다.
LLM에 사고를 활성화하면 인간과 유사한 행동을 보이며, 무작위 및 지향적 탐험의 혼합을 나타냅니다.
단순한 환경에서는 인간과 유사한 탐험 수준을 달성하지만, 복잡한 환경에서는 적응성에 어려움을 겪습니다.
LLM의 효과적인 지향적 탐험 능력 개선이 필요합니다.
👍