본 논문은 대규모 언어 모델(LLM) 에이전트의 평가 및 개발을 위한 새로운 접근법을 제시합니다. 기존의 사전 정의된 테스트 사례나 표준 재개발 파이프라인은 LLM 에이전트의 동적이고 확률적이며 진화하는 특성을 다루는 데 어려움을 겪기 때문에, 본 논문은 테스트 주도 개발 및 행동 주도 개발에서 영감을 받은 평가 주도 개발 접근 방식을 제안합니다. 이 접근 방식은 온라인(런타임) 및 오프라인(재개발) 평가를 통합하여 에이전트의 라이프사이클 전반에 걸쳐 적응형 런타임 조정과 파이프라인, 아티팩트, 시스템 아키텍처 및 LLM 자체의 체계적인 반복적 개선을 가능하게 합니다. 여기에는 인간 및 AI 평가자의 세분화된 피드백을 포함한 평가 결과를 개발 및 운영의 각 단계에 지속적으로 통합하여 LLM 에이전트가 진화하는 목표, 사용자 요구 및 거버넌스 표준과 일치하도록 합니다. 다양한 문헌 검토를 통해 기존 LLM 평가 방법의 한계를 분석하고, LLM 에이전트의 평가 주도 개발을 위한 새로운 프로세스 모델과 참조 아키텍처를 제시합니다.