본 논문은 기업 환경에서 에이전트 시스템의 배포를 저해하는 여러 과제(도메인 특정 프로세스 지식 부족으로 인한 비체계적인 계획, 중요 도구 누락, 실행 안정성 저하 등)를 해결하기 위해 Routine이라는 다단계 에이전트 계획 프레임워크를 제시한다. Routine은 명확한 구조, 명시적인 지침, 매끄러운 매개변수 전달을 통해 에이전트의 실행 모듈을 안내하여 다단계 도구 호출 작업을 높은 안정성으로 수행하도록 설계되었다. 실제 기업 시나리오에서 평가한 결과, Routine은 모델 도구 호출의 실행 정확도를 크게 향상시켜 GPT-4o의 성능을 41.1%에서 96.3%로, Qwen3-14B의 성능을 32.6%에서 83.3%로 향상시켰다. 또한, Routine을 따르는 훈련 데이터셋을 구성하여 Qwen3-14B를 미세 조정한 결과, 시나리오 특정 평가에서 정확도가 88.2%로 증가하여 실행 계획 준수가 개선됨을 보여주었다. 추가로, Routine 기반 증류를 사용하여 시나리오 특정 다단계 도구 호출 데이터셋을 생성하였고, 이 증류된 데이터셋으로 미세 조정한 결과 모델의 정확도가 95.5%로 상승하여 GPT-4o의 성능에 근접하였다. 이러한 결과는 Routine이 도메인 특정 도구 사용 패턴을 증류하고 새로운 시나리오에 대한 모델 적응성을 향상시키는 데 효과적임을 강조한다. 실험 결과는 Routine이 안정적인 에이전트 워크플로를 구축하는 실용적이고 접근 가능한 방법을 제공하여 기업 환경에서 에이전트 시스템의 배포 및 채택을 가속화하고 프로세스를 위한 AI의 기술적 비전을 발전시킨다는 것을 보여준다.
시사점, 한계점
•
시사점:
◦
기업 환경에서 에이전트 시스템의 안정적인 실행을 위한 실용적이고 효과적인 프레임워크(Routine) 제시.
◦
도메인 특정 도구 사용 패턴 증류 및 모델 적응성 향상을 통한 에이전트 성능 개선.
◦
GPT-4o 및 Qwen3-14B 모델의 성능 향상을 통한 실제적인 효용성 검증.
◦
Routine 기반 데이터 증류를 통한 효율적인 모델 학습 방법 제시.
◦
기업 환경에서 에이전트 시스템의 배포 및 채택 가속화 가능성 제시.
•
한계점:
◦
Routine 프레임워크의 일반화 가능성에 대한 추가 연구 필요. 다양한 도메인 및 작업에 대한 적용성 검증이 필요하다.
◦
사용된 모델(GPT-4o, Qwen3-14B)에 대한 의존성. 다른 모델에 대한 적용성 및 성능 확인이 필요하다.
◦
실제 기업 환경의 복잡성을 완벽하게 반영하지 못할 가능성. 더욱 다양하고 복잡한 시나리오에 대한 추가적인 실험이 필요하다.
◦
Routine 프레임워크의 구축 및 유지보수 비용에 대한 분석 부족.
◦
설명 가능성(Explainability)에 대한 추가적인 연구가 필요하다. Routine의 의사결정 과정에 대한 투명성을 높일 필요가 있다.