Blueprint First, Model Second: A Framework for Deterministic LLM Workflow
Created by
Haebom
저자
Libin Qiu, Yuhang Ye, Zhirong Gao, Xide Zou, Junfu Chen, Ziming Gui, Weizhi Huang, Xiaobo Xue, Wenkai Qiu, Kun Zhao
개요
본 논문은 대규모 언어 모델(LLM) 에이전트의 비결정론적 특성으로 인해 절차적 충실도와 예측 가능한 실행이 필수적인 구조화된 운영 환경에서의 적용이 제한되는 문제를 해결하기 위해, "청사진 우선, 모델 우선" 철학에 기반한 소스 코드 에이전트 프레임워크를 제시한다. 이 프레임워크는 워크플로 로직을 생성 모델과 분리하여 전문가가 정의한 운영 절차를 소스 코드 기반 실행 청사진으로 코딩하고, 결정론적 엔진으로 실행한다. LLM은 워크플로 내 제한적이고 복잡한 하위 작업을 처리하는 특수 도구로 전략적으로 호출되지만, 워크플로의 경로를 결정하는 데는 사용되지 않는다. 복잡한 사용자-도구-규칙 시나리오를 위해 설계된 tau-bench 벤치마크를 사용하여 종합적인 평가를 수행한 결과, 평균 Pass^1 점수에서 가장 강력한 기준 모델보다 10.1% 향상된 성능을 보이며 실행 효율성도 크게 향상되었다. 이 연구는 엄격한 절차적 논리에 의해 관리되는 애플리케이션에서 검증 가능하고 신뢰할 수 있는 자율 에이전트의 배포를 가능하게 한다.
시사점, 한계점
•
시사점:
◦
LLM 에이전트의 비결정성 문제를 해결하여 구조화된 환경에서의 적용 가능성을 높였다.
◦
소스 코드 기반 실행 청사진을 통해 워크플로의 투명성과 검증 가능성을 향상시켰다.
◦
tau-bench 벤치마크에서 SOTA 성능을 달성하여 프레임워크의 효과성을 입증했다.
◦
엄격한 절차적 논리가 필요한 애플리케이션에서 자율 에이전트의 신뢰할 수 있는 배포를 가능하게 한다.