From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production
Created by
Haebom
저자
Segev Shlomov, Alon Oved, Sami Marreed, Ido Levy, Offer Akrabi, Avi Yaeli, {\L}ukasz Str\k{a}k, Elizabeth Koumpan, Yinon Goldshtein, Eilam Shapira, Nir Mashkif, Asaf Adi
개요
IBM에서 개발하고 오픈 소스로 공개한 Computer Using Generalist Agent (CUGA)의 개발 및 파일럿 운영 경험을 보고하는 논문입니다. CUGA는 계층적 플래너-실행자 아키텍처를 채택하여 AppWorld 및 WebArena에서 최첨단 성능을 달성했습니다. 또한, Business-Process-Outsourcing (BPO) 분야의 인재 채용 도메인에서 파일럿을 통해 확장성, 감사 가능성, 안전성 및 거버넌스에 대한 기업 요구 사항을 충족하는지 평가했습니다. 평가를 위해 26개의 작업으로 구성된 BPO-TA 벤치마크를 도입했으며, CUGA는 전문 에이전트와 유사한 정확도를 보이며 개발 시간과 비용을 절감할 가능성을 보여주었습니다. 본 논문은 기업 규모에서 일반 에이전트의 초기 사용 사례를 제시하고, 기술적 및 조직적 교훈을 제공합니다.