본 논문은 대규모 언어 모델(LLM)을 활용한 에이전트 인공지능(AI) 시스템이 복잡한 추론, 계획 및 도구 활용에 상당한 잠재력을 가지고 있음을 보여줍니다. 특히, 자연어 프롬프트를 사용하여 의료 영상 분석을 위한 오픈소스 인지 AI 환경인 SimpleMind(SM)에 LLM 기반 에이전트를 통합하여, 특정 컴퓨터 비전 작업을 위한 계획(도구 구성)을 자동화하는 특수 컴퓨터 비전 시스템을 자율적으로 구축할 수 있음을 증명합니다. 본 연구는 사용자 입력 프롬프트("provide sm (SimpleMind) config for lungs, heart, and ribs segmentation for cxr (chest x-ray)")로부터 에이전트 LLM이 SimpleMind 워크플로우를 계획하고(YAML 형식의 도구 구성 파일 생성), SM-Learn(학습) 및 SM-Think(추론) 스크립트를 자율적으로 실행할 수 있음을 보여주는 개념 증명을 제공합니다. 자율적으로 구성, 학습 및 테스트된 컴퓨터 비전 에이전트는 50장의 흉부 X선 사진에 대해 폐, 심장, 갈비뼈에 대해 각각 0.96, 0.82, 0.83의 평균 Dice 점수를 달성했습니다. 이는 기존에 데이터 과학자가 수행해왔던 컴퓨터 비전 애플리케이션 개발에서의 자율적 계획 및 도구 구성의 잠재력을 보여줍니다.