본 논문은 에이전트 시스템(상호 작용하는 LLM 기반 에이전트들의 집합으로, 메모리, 도구, 동적 계획을 사용하여 복잡하고 적응적인 워크플로를 실행) 내에서 점점 더 많이 배포되는 대규모 언어 모델(LLM)의 운영을 위한 포괄적인 프레임워크인 AgentOps를 제안합니다. AgentOps는 확률적 추론, 진화하는 메모리 상태 및 유동적인 실행 경로로 인해 발생하는 불확실성을 다루기 위해 개발자, 테스터, SRE, 비즈니스 사용자의 각 역할에 맞는 관찰, 분석, 최적화 및 자동화 기능을 제공합니다. 특히, 불확실성을 제거하는 것이 아니라 관리하여 안전하고 적응적이며 효과적인 운영을 보장하는 자동화의 중요성을 강조합니다. AgentOps 자동화 파이프라인은 행동 관찰, 지표 수집, 문제 감지, 근본 원인 분석, 최적화된 권장 사항 및 런타임 자동화의 6단계 프로세스로 구성됩니다.