본 논문은 대규모 언어 모델(LLM) 에이전트의 평가에 대한 어려움을 해결하기 위해 평가 중심 개발 및 운영(EDDOps) 접근 방식을 제시한다. LLM 에이전트의 개방적인 특성과 시스템 수준 상호 작용으로 인해 기존 평가 방법의 한계를 지적하고, 학계 및 산업계의 평가 방식을 종합적으로 분석하여 프로세스 모델과 참조 아키텍처를 제시한다. EDDOps는 오프라인 및 온라인 평가를 통합하여 지속적인 피드백 루프를 구축하고, 런타임 적응 및 개발을 통해 안전하고 추적 가능한 LLM 에이전트의 진화를 지원한다.