Android는 가장 큰 모바일 플랫폼이지만, 애플리케이션의 자동 빌드는 여전히 어려운 과제입니다. 대규모 언어 모델(LLM)은 코드 수정에 대한 가능성을 보여주지만, Android 빌드 오류 수정에 대한 활용은 충분히 연구되지 않았습니다. 이 문제를 해결하기 위해, 43개의 오픈 소스 Android 프로젝트의 커밋 기록에서 수집된 1,019개의 빌드 실패 사례를 벤치마크한 AndroidBuildBench를 소개합니다. 각 문제에는 후속 커밋에서 검증된 해결책이 쌍으로 제공되어, 수정이 가능한지 확인합니다. 다음으로, Gradle 빌드 환경을 검사하고 조작하기 위한 도메인별 도구를 갖춘 LLM 에이전트인 GradleFixer를 제안합니다. GradleFixer는 81.4%의 해결률(pass@1)을 달성하여, 범용 셸에 의존하는 최첨단 코딩 에이전트를 크게 능가합니다. GradleFixer의 성공은 LLM이 이러한 실패를 해결할 수 있는 높은 수준의 지식을 가지고 있지만, 범용 셸을 사용하여 이 지식을 효과적인 저수준 작업으로 변환하는 데 어려움을 겪는다는 것을 시사합니다. 우리는 Tool Bridging이라고 부르는 전략의 효과를 입증합니다. 이 전략은 범용 셸 명령을 도메인 인지 추상화로 대체합니다. 이 접근 방식은 두 가지 메커니즘을 통해 작동한다고 가정합니다: 1) LLM이 보다 안정적으로 사용하는 API와 유사한 형식으로 도구를 제공하고, 2) 작업 공간을 관련 작업으로 제한합니다. 이 접근 방식은 모델의 높은 수준의 추론과 효과적인 저수준 실행 간의 격차를 해소합니다.