Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mini Amusement Parks (MAPs): A Testbed for Modelling Business Decisions

Created by
  • Haebom
Category
Empty

저자

Stephane Aroca-Ouellette, Ian Berlot-Attwell, Panagiotis Lymperopoulos, Abhiramon Rajasekharan, Tongqi Zhu, Herin Kang, Kaheer Suleman, Sam Pasupalak

개요

인공지능의 급속한 발전에도 불구하고, 현재 시스템은 실제 의사 결정에 필요한 상호 연결된 과제에 어려움을 겪고 있습니다. 비즈니스 관리와 같은 실제 영역에서는 개방적이고 다면적인 목표 최적화, 희소한 경험으로부터 환경 역학 학습, 확률적 환경에서의 장기간 계획, 공간 정보 추론 등이 필요합니다. 그러나 기존의 인간-AI 벤치마크는 이러한 능력의 하위 집합을 분리하여 전체적인 의사 결정 능력을 평가하는 데 한계가 있습니다. 본 논문에서는 에이전트가 환경을 모델링하고, 불확실성 속에서 장기적인 결과를 예측하며, 복잡한 비즈니스를 전략적으로 운영하는 능력을 평가하기 위해 설계된 놀이공원 시뮬레이터인 Mini Amusement Parks (MAPs)를 소개합니다. 인간 기준선을 제공하고 최첨단 LLM 에이전트에 대한 포괄적인 평가를 수행한 결과, 인간이 쉬움 모드에서 6.5배, 중간 모드에서 9.8배 더 나은 성과를 보였습니다. 분석 결과, 장기간 최적화, 샘플 효율적인 학습, 공간 추론 및 세계 모델링에 지속적인 약점이 나타났습니다. MAPs는 이러한 과제를 단일 환경 내에서 통합함으로써 적응형 의사 결정을 수행할 수 있는 에이전트를 벤치마킹하기 위한 새로운 기반을 제공합니다.

시사점, 한계점

시사점:
실제 의사 결정에 필요한 복합적인 능력을 평가하는 새로운 벤치마크 환경 (MAPs) 제시
LLM 에이전트의 약점 (장기간 최적화, 샘플 효율적 학습, 공간 추론, 세계 모델링) 확인
인간의 의사 결정 능력과 비교하여 LLM 에이전트의 격차를 보여줌
한계점:
MAPs는 시뮬레이션 환경이므로 실제 세계의 복잡성을 완벽하게 반영하지 못함
평가에 사용된 LLM 에이전트의 수가 제한적일 수 있음
제시된 환경이 특정 유형의 의사 결정 문제에 국한될 수 있음
👍