Measuring Agents in Production

Created by

Haebom

저자

Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, Yuxuan Zhu, Alexander Xiong, Lakshya A Agrawal, Huanzhi Mao, Emma Shen, Sid Pallerla, Liana Patel, Shu Liu, Tianneng Shi, Xiaoyuan Liu, Jared Quincy Davis, Emmanuele Lacavalla, Alessandro Basile, Shuyi Yang, Paul Castro, Daniel Kang, Joseph E. Gonzalez, Koushik Sen, Dawn Song, Ion Stoica, Matei Zaharia, Marquita Ellis

개요

본 논문은 다양한 산업 분야에서 AI 에이전트의 실제 배포를 가능하게 하는 기술적 접근 방식에 대한 연구이다. 306명의 실무자를 대상으로 설문 조사를 실시하고, 26개 도메인에서 20건의 심층 사례 연구를 통해 AI 에이전트 구축 이유, 방식, 평가 방법 및 주요 개발 과제를 조사했다. 연구 결과, 생산 에이전트는 일반적으로 간단하고 제어가 가능한 방식으로 구축되며, 68%는 인간의 개입 전에 최대 10단계를 실행하고, 70%는 가중치 조정 대신 기성 모델의 프롬프팅에 의존하며, 74%는 주로 인간 평가에 의존한다. 신뢰성은 에이전트의 정확성을 보장하고 평가하는 어려움으로 인해 여전히 주요 개발 과제로 남아있다.