Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automating Android Build Repair: Bridging the Reasoning-Execution Gap in LLM Agents with Domain-Specific Tools

Created by
  • Haebom
Category
Empty

저자

Ha Min Son, Huan Ren, Xin Liu, Zhe Zhao

개요

Android는 가장 큰 모바일 플랫폼이지만, 애플리케이션의 자동 빌드는 여전히 어려운 과제입니다. 대규모 언어 모델(LLM)은 코드 수정에 대한 가능성을 보여주지만, Android 빌드 오류 수정에 대한 활용은 충분히 연구되지 않았습니다. 이 문제를 해결하기 위해, 43개의 오픈 소스 Android 프로젝트의 커밋 기록에서 수집된 1,019개의 빌드 실패 사례를 벤치마크한 AndroidBuildBench를 소개합니다. 각 문제에는 후속 커밋에서 검증된 해결책이 쌍으로 제공되어, 수정이 가능한지 확인합니다. 다음으로, Gradle 빌드 환경을 검사하고 조작하기 위한 도메인별 도구를 갖춘 LLM 에이전트인 GradleFixer를 제안합니다. GradleFixer는 81.4%의 해결률(pass@1)을 달성하여, 범용 셸에 의존하는 최첨단 코딩 에이전트를 크게 능가합니다. GradleFixer의 성공은 LLM이 이러한 실패를 해결할 수 있는 높은 수준의 지식을 가지고 있지만, 범용 셸을 사용하여 이 지식을 효과적인 저수준 작업으로 변환하는 데 어려움을 겪는다는 것을 시사합니다. 우리는 Tool Bridging이라고 부르는 전략의 효과를 입증합니다. 이 전략은 범용 셸 명령을 도메인 인지 추상화로 대체합니다. 이 접근 방식은 두 가지 메커니즘을 통해 작동한다고 가정합니다: 1) LLM이 보다 안정적으로 사용하는 API와 유사한 형식으로 도구를 제공하고, 2) 작업 공간을 관련 작업으로 제한합니다. 이 접근 방식은 모델의 높은 수준의 추론과 효과적인 저수준 실행 간의 격차를 해소합니다.

시사점, 한계점

Android 빌드 오류 해결을 위한 LLM의 활용 가능성 입증.
GradleFixer를 통해 기존 코딩 에이전트보다 높은 성능 달성.
Tool Bridging 전략의 효과 입증 및 이를 통한 모델의 저수준 작업 수행 능력 향상.
AndroidBuildBench 벤치마크를 통해 Android 빌드 오류 연구를 위한 기반 마련.
LLM이 여전히 범용 셸을 통한 저수준 작업 수행에 어려움을 겪는다는 점을 확인.
향후 연구를 위한 도메인별 도구 및 추상화의 중요성 강조.
👍