Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production

Created by
  • Haebom

저자

Segev Shlomov, Alon Oved, Sami Marreed, Ido Levy, Offer Akrabi, Avi Yaeli, {\L}ukasz Str\k{a}k, Elizabeth Koumpan, Yinon Goldshtein, Eilam Shapira, Nir Mashkif, Asaf Adi

개요

IBM에서 개발하고 오픈 소스로 공개한 Computer Using Generalist Agent (CUGA)의 개발 및 파일럿 운영 경험을 보고하는 논문입니다. CUGA는 계층적 플래너-실행자 아키텍처를 채택하여 AppWorld 및 WebArena에서 최첨단 성능을 달성했습니다. 또한, Business-Process-Outsourcing (BPO) 분야의 인재 채용 도메인에서 파일럿을 통해 확장성, 감사 가능성, 안전성 및 거버넌스에 대한 기업 요구 사항을 충족하는지 평가했습니다. 평가를 위해 26개의 작업으로 구성된 BPO-TA 벤치마크를 도입했으며, CUGA는 전문 에이전트와 유사한 정확도를 보이며 개발 시간과 비용을 절감할 가능성을 보여주었습니다. 본 논문은 기업 규모에서 일반 에이전트의 초기 사용 사례를 제시하고, 기술적 및 조직적 교훈을 제공합니다.

시사점, 한계점

시사점:
일반 에이전트가 기업 환경에서 활용될 수 있는 잠재력을 보여줌.
CUGA를 통해 개발 시간 및 비용 절감 가능성을 제시.
BPO-TA 벤치마크를 통해 평가 방법론을 제시.
CUGA를 오픈 소스로 공개하여 연구 및 개발 커뮤니티에 기여.
한계점:
초기 파일럿 단계의 결과로, 더 광범위한 실제 환경에서의 검증 필요.
CUGA의 엔터프라이즈 레벨 적용을 위한 추가적인 기술적, 조직적 개선 필요.
벤치마크 외 실제 비즈니스 가치에 대한 추가적인 정량적 평가 필요.
👍