Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Tasks

Created by
  • Haebom

저자

Ziyuan Zhang, Darcy Wang, Ningyuan Chen, Rodrigo Mansur, Vahid Sarhangian

개요

본 논문은 대규모 언어 모델(LLM)이 복잡한 순차적 의사결정 과제에서 인간 행동을 시뮬레이션하거나 자동화하는 데 사용되는 상황에서, LLM이 인간과 유사한 의사결정 행동을 보이는지, 그리고 인간과 비교하여 동등하거나 우수한 성능을 달성할 수 있는지에 대한 질문에 초점을 맞추고 있습니다. 인지 과학 및 정신의학 문헌에서 제시된 전형적인 다중 무장 밴딧(MAB) 과제를 사용하여 LLM, 인간 및 MAB 알고리즘의 탐색-활용(E&E) 전략을 비교 연구했습니다. 해석 가능한 선택 모델을 사용하여 각 에이전트의 E&E 전략을 파악하고, 프롬프팅 전략과 추론 강화 모델을 통해 명시적인 추론이 LLM 의사결정에 어떻게 영향을 미치는지 조사했습니다. 연구 결과, 추론은 LLM을 무작위 및 지향적 탐색이 혼합된 인간과 유사한 행동으로 이동시키는 것으로 나타났습니다. 단순한 정상 상태 과제에서는 추론 기반 LLM이 인간과 비슷한 수준의 무작위 및 지향적 탐색을 보였습니다. 그러나 더 복잡한 비정상 상태 환경에서는 특정 시나리오에서 유사한 후회를 달성했음에도 불구하고, 특히 효과적인 지향적 탐색에서 인간의 적응성에 미치지 못했습니다. 본 연구 결과는 인간 행동 시뮬레이터 및 자동화된 의사결정 도구로서 LLM의 가능성과 한계를 모두 강조하며, 개선 가능한 영역을 제시합니다.

시사점, 한계점

시사점:
추론을 통합하면 LLM의 의사결정이 인간과 더 유사해짐을 보여줍니다.
단순한 정상 상태 환경에서 LLM은 인간과 유사한 수준의 탐색-활용 전략을 보입니다.
LLM을 이용한 인간 행동 시뮬레이션 및 자동화된 의사결정 시스템 개발의 가능성을 제시합니다.
한계점:
복잡하고 비정상 상태 환경에서는 LLM이 인간의 적응성, 특히 효과적인 지향적 탐색에 미치지 못합니다.
LLM의 의사결정 과정에 대한 추가적인 연구가 필요합니다.
더욱 복잡하고 다양한 환경에서 LLM의 성능을 평가해야 합니다.
👍
You do not have permission to write comments