본 논문은 다양한 기술을 가진 전문가 간의 협력을 필요로 하는 복잡한 과제를 해결하는 데 있어 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템의 최적화에 대한 경험적 사례 연구를 수행합니다. 소프트웨어 개발 과제를 대상으로 역할 기반 다중 에이전트 시스템의 그룹 최적화를 자연어 피드백을 활용하여 다양한 평가 기준 하에 연구합니다. 저성능 에이전트를 식별하고, 텍스트 피드백을 활용하여 실패 원인을 분석한 후, 이를 바탕으로 에이전트 프롬프트를 최적화하는 2단계 파이프라인을 제안합니다. 온라인/오프라인 최적화, 개별/그룹 최적화를 비교하고, 그룹 최적화를 위해 일회성 및 다회성 프롬프트 최적화 전략을 연구하여 다양한 최적화 설정이 시스템 성능에 미치는 영향을 분석합니다. 결과적으로 소프트웨어 개발 과제에 대한 역할 기반 다중 에이전트 시스템 최적화 방법의 효과를 보여주고, 다양한 최적화 설정이 다중 에이전트 시스템의 그룹 행동에 미치는 영향을 조사하여 실용적인 통찰력을 제공합니다.