Android는 가장 큰 모바일 플랫폼이지만, 애플리케이션을 자동으로 빌드하는 것은 여전히 실질적인 과제로 남아 있습니다. 대규모 언어 모델(LLM)은 코드 수리에 대한 가능성을 보여주고 있지만, Android 빌드 오류를 해결하는 데 사용되는 연구는 부족합니다. 이러한 격차를 해결하기 위해, 본 논문에서는 43개의 오픈 소스 Android 프로젝트의 커밋 기록에서 큐레이션된 1,019개의 빌드 실패로 구성된 AndroidBuildBench를 소개합니다. 각 문제는 이후 커밋에서 검증된 해결책과 쌍을 이루어 수정이 가능하다는 것을 보장합니다. 또한, Gradle 빌드 환경을 검사하고 조작하기 위한 도메인 특정 도구를 갖춘 LLM 에이전트인 GradleFixer를 제안합니다. GradleFixer는 81.4%의 해결률(pass@1)을 달성하여 범용 셸에 의존하는 최첨단 코딩 에이전트를 크게 능가합니다. GradleFixer의 성공은 LLM이 이러한 오류를 해결할 수 있는 높은 수준의 지식을 가지고 있지만, 범용 셸을 사용하여 이 지식을 효과적인 저수준 동작으로 변환하는 데 어려움을 겪는다는 것을 시사합니다. 본 논문에서는 Tool Bridging이라는 전략의 효과를 입증합니다. 이 전략은 범용 셸 명령을 도메인 인식 추상화로 대체합니다. 이 접근 방식은 두 가지 메커니즘을 통해 작동한다고 가설을 세웁니다. 1) LLM이 더 안정적으로 사용하는 API와 같은 형식으로 도구를 제공하고, 2) 동작 공간을 관련 작업으로 제한합니다. 이 접근 방식은 모델의 높은 수준의 추론과 효과적인 저수준 실행 간의 격차를 해소합니다.