Sign In

Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems

Created by
  • Haebom
Category
Empty

저자

Dany Moshkovich, Hadar Mulian, Sergey Zeltyn, Natti Eder, Inna Skarbovsky, Roy Abitbol

개요

본 논문은 다양한 작업을 수행하기 위해 에이전트들이 협업하는 에이전트 AI 시스템의 분석 및 최적화에 대한 어려움을 다룹니다. 기존의 평가 및 벤치마킹 방법은 비결정적이고, 상황에 민감하며, 동적인 이러한 시스템의 특성을 다루는 데 어려움을 겪습니다. 본 논문에서는 개발, 테스트 및 유지보수 전반에 걸쳐 에이전트 시스템을 분석하고 최적화하는 과정에서 발생하는 주요 과제와 기회를 탐구합니다. 자연어의 변동성과 예측 불가능한 실행 흐름과 같은 중요한 문제점들을 다루며, 입력 변동성과 진화하는 행동을 관리하기 위한 적응 전략의 필요성을 강조합니다. 사용자 연구를 통해 이러한 가설들을 뒷받침하고, 특히 에이전트 시스템의 비결정적 흐름이 주요 과제라는 데 대해 79%의 동의를 얻었습니다. 기존의 벤치마킹을 넘어설 필요성을 경험적으로 검증하고, 표준 관측 가능성 프레임워크를 확장하여 예상되는 분석 결과와 수집 방법을 제시하는 분류 체계를 도입합니다. 이러한 기반 위에 에이전트 평가 시스템의 벤치마킹을 위한 새로운 접근 방식을 제시하고 실증합니다. 기존의 "블랙박스" 성능 평가 방식과 달리, 에이전트 실행 로그를 입력으로 사용하고, 발견된 흐름과 문제점을 포함한 분석 결과를 출력으로 제공합니다. 기존 방법론의 주요 한계를 해결함으로써, 적응적이고, 해석 가능하며, 강력한 에이전트 AI 시스템 개발을 촉진할 수 있는 더욱 고급스럽고 전체적인 평가 전략을 위한 기반을 마련하고자 합니다.

시사점, 한계점

시사점:
에이전트 AI 시스템 분석 및 최적화의 어려움과 그 해결 방안 제시
에이전트 실행 로그 기반의 새로운 벤치마킹 접근 방식 제안
표준 관측 가능성 프레임워크 확장을 통한 분석 결과 수집 방법 제시
적응적이고, 해석 가능하며, 강력한 에이전트 AI 시스템 개발을 위한 기반 마련
한계점:
제안된 벤치마킹 접근 방식의 일반화 가능성 및 확장성에 대한 추가 연구 필요
다양한 유형의 에이전트 시스템에 대한 적용성 검증 필요
사용자 연구 참여자 수 제한 및 일반화 가능성에 대한 고려 필요
제안된 분류 체계의 포괄성 및 실용성에 대한 추가 검토 필요
👍