본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 운영 및 유지보수에 대한 체계적인 접근법을 제시한다. 기존 시스템보다 유연성과 해석력이 뛰어난 LLM 기반 에이전트 시스템은 널리 연구되고 산업적으로 활용되고 있지만, 시스템 이상 현상으로 인한 불안정성과 보안 문제에 직면하고 있다. 이러한 문제를 해결하기 위해, 본 논문은 에이전트 시스템의 이상 현상을 에이전트 내부 이상과 에이전트 간 이상으로 분류하고, AgentOps라는 새로운 운영 프레임워크를 제안한다. AgentOps는 모니터링, 이상 탐지, 근본 원인 분석, 해결의 네 가지 주요 단계로 구성된다. 본 연구는 에이전트 시스템 운영에 대한 연구가 부족한 현실을 고려하여, 해당 분야에 대한 명확한 프레임워크를 구축하고, 향후 연구 개발을 위한 기반을 마련하고자 한다.