Georg Wolflein, Dyke Ferber, Daniel Truhn, Ognjen Arandjelovic, Jakob Nikolas Kather
개요
본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 소프트웨어 구성 요소를 동적으로 활용하여 복잡한 다단계 작업을 수행할 수 있도록 하는 도구 사용에 초점을 맞추고 있습니다. 하지만 기존 방식은 인간 개발자가 미리 도구를 구현해야 하므로 생명 과학 및 의학과 같이 많은 수의 고도로 특수화된 도구가 필요한 분야에서는 LLM 에이전트의 적용성이 저해됩니다. 이에 본 논문에서는 공개 코드 저장소를 포함하는 과학 연구의 증가 추세에 착안하여, 코드가 포함된 논문을 LLM과 호환되는 도구로 자율적으로 변환하는 에이전트 프레임워크인 ToolMaker를 제안합니다. ToolMaker는 GitHub URL과 간략한 작업 설명을 입력받아 종속성을 자율적으로 설치하고 작업을 수행하는 코드를 생성하며, 디버깅을 위한 폐쇄 루프 자가 수정 메커니즘을 사용합니다. 다양한 도구를 사용하는 15개의 복잡한 계산 작업으로 구성된 벤치마크를 통해 정확성과 강력함을 평가한 결과, 작업의 80%를 정확하게 구현하여 기존 최첨단 소프트웨어 엔지니어링 에이전트를 상당히 능가하는 성능을 보였습니다. ToolMaker는 완전히 자율적인 에이전트 기반 과학적 워크플로우를 향한 한 걸음입니다. 코드와 벤치마크는 https://github.com/KatherLab/ToolMaker 에서 공개적으로 이용 가능합니다.