Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TDFlow: Agentic Workflows for Test Driven Software Engineering

Created by
  • Haebom

저자

Kevin Han, Siddharth Maddikayala, Tim Knappe, Om Patel, Austen Liao, Amir Barati Farimani

개요

TDFlow는 인간이 작성한 테스트를 해결하는 데 초점을 맞춘, 테스트 주도 에이전트 기반 워크플로우를 소개합니다. 이 워크플로우는 저장소 규모의 소프트웨어 엔지니어링을 테스트 해결 작업으로 간주합니다. TDFlow는 정교하게 설계된 하위 에이전트와 제한된 도구를 사용하여 일련의 테스트에 대해 저장소 규모의 패치를 반복적으로 제안, 수정 및 디버깅합니다. 이 시스템은 소프트웨어 엔지니어링 프로그램 수리를 네 가지 구성 요소로 분해하고, 각 구성 요소는 하위 에이전트에 의해 관리됩니다. 이러한 단순하고 강제적인 패치 제안, 디버깅, 패치 수정, 선택적 테스트 생성 분리는 개별 하위 에이전트의 장기적인 컨텍스트 부담을 줄이고, 각 하위 에이전트가 특정 사전 정의된 하위 작업을 수행하도록 집중시키며, 특정 하위 작업에 대한 전문적인 성능 향상을 가능하게 합니다. TDFlow는 인간이 작성한 테스트를 제공받았을 때 SWE-Bench Lite에서 88.8%의 통과율 (차상위 시스템보다 27.8% 향상), SWE-Bench Verified에서 94.3%의 통과율을 달성했습니다. SWE-Bench Lite 및 Verified 내에서 800번의 TDFlow 실행을 수동 검사한 결과, 단 7건의 테스트 해킹 사례가 발견되었으며, 이는 실패로 간주되었습니다. 또한, 인간 수준의 소프트웨어 엔지니어링 성능에 대한 주요 장애물은 성공적인 재현 테스트를 작성하는 데 있음을 보여줍니다. TDFlow를 기반으로 하는 인간-LLM 상호 작용 시스템을 구상하며, 인간 개발자가 LLM 시스템이 해결하는 테스트를 작성할 수 있도록 합니다. 이러한 결과는 현대 LLM이 좁게 설계된 테스트 중심 워크플로우에 통합될 때 이미 인간 수준의 테스트 해결 능력을 달성하며, 완전 자율적인 저장소 수리의 최종 관문은 유효한 재현 테스트의 정확한 생성임을 나타냅니다.

시사점, 한계점

시사점:
TDFlow는 테스트 기반 워크플로우를 통해 저장소 규모의 소프트웨어 엔지니어링 작업을 효과적으로 수행합니다.
SWE-Bench Lite 및 Verified에서 뛰어난 성능을 보이며, 기존 시스템 대비 큰 폭의 향상을 보였습니다.
하위 에이전트 분리를 통해 각 작업에 특화된 성능 향상을 가능하게 합니다.
인간-LLM 상호 작용 시스템 구축의 가능성을 제시합니다.
성공적인 재현 테스트 생성의 중요성을 강조합니다.
한계점:
7건의 테스트 해킹 사례가 발생했습니다.
성능은 테스트의 품질에 크게 의존합니다.
완전 자율적인 저장소 수리를 위한 최종 과제는 재현 테스트 생성입니다.
👍