TDFlow는 인간이 작성한 테스트를 해결하는 데 초점을 맞춘, 테스트 주도 에이전트 기반 워크플로우를 소개합니다. 이 워크플로우는 저장소 규모의 소프트웨어 엔지니어링을 테스트 해결 작업으로 간주합니다. TDFlow는 정교하게 설계된 하위 에이전트와 제한된 도구를 사용하여 일련의 테스트에 대해 저장소 규모의 패치를 반복적으로 제안, 수정 및 디버깅합니다. 이 시스템은 소프트웨어 엔지니어링 프로그램 수리를 네 가지 구성 요소로 분해하고, 각 구성 요소는 하위 에이전트에 의해 관리됩니다. 이러한 단순하고 강제적인 패치 제안, 디버깅, 패치 수정, 선택적 테스트 생성 분리는 개별 하위 에이전트의 장기적인 컨텍스트 부담을 줄이고, 각 하위 에이전트가 특정 사전 정의된 하위 작업을 수행하도록 집중시키며, 특정 하위 작업에 대한 전문적인 성능 향상을 가능하게 합니다. TDFlow는 인간이 작성한 테스트를 제공받았을 때 SWE-Bench Lite에서 88.8%의 통과율 (차상위 시스템보다 27.8% 향상), SWE-Bench Verified에서 94.3%의 통과율을 달성했습니다. SWE-Bench Lite 및 Verified 내에서 800번의 TDFlow 실행을 수동 검사한 결과, 단 7건의 테스트 해킹 사례가 발견되었으며, 이는 실패로 간주되었습니다. 또한, 인간 수준의 소프트웨어 엔지니어링 성능에 대한 주요 장애물은 성공적인 재현 테스트를 작성하는 데 있음을 보여줍니다. TDFlow를 기반으로 하는 인간-LLM 상호 작용 시스템을 구상하며, 인간 개발자가 LLM 시스템이 해결하는 테스트를 작성할 수 있도록 합니다. 이러한 결과는 현대 LLM이 좁게 설계된 테스트 중심 워크플로우에 통합될 때 이미 인간 수준의 테스트 해결 능력을 달성하며, 완전 자율적인 저장소 수리의 최종 관문은 유효한 재현 테스트의 정확한 생성임을 나타냅니다.