Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automating Android Build Repair: Bridging the Reasoning-Execution Gap in LLM Agents with Domain-Specific Tools

Created by
  • Haebom

저자

Ha Min Son, Huan Ren, Xin Liu, Zhe Zhao

개요

Android는 가장 큰 모바일 플랫폼이지만, 애플리케이션을 자동으로 빌드하는 것은 여전히 실질적인 과제로 남아 있습니다. 대규모 언어 모델(LLM)은 코드 수리에 대한 가능성을 보여주고 있지만, Android 빌드 오류를 해결하는 데 사용되는 연구는 부족합니다. 이러한 격차를 해결하기 위해, 본 논문에서는 43개의 오픈 소스 Android 프로젝트의 커밋 기록에서 큐레이션된 1,019개의 빌드 실패로 구성된 AndroidBuildBench를 소개합니다. 각 문제는 이후 커밋에서 검증된 해결책과 쌍을 이루어 수정이 가능하다는 것을 보장합니다. 또한, Gradle 빌드 환경을 검사하고 조작하기 위한 도메인 특정 도구를 갖춘 LLM 에이전트인 GradleFixer를 제안합니다. GradleFixer는 81.4%의 해결률(pass@1)을 달성하여 범용 셸에 의존하는 최첨단 코딩 에이전트를 크게 능가합니다. GradleFixer의 성공은 LLM이 이러한 오류를 해결할 수 있는 높은 수준의 지식을 가지고 있지만, 범용 셸을 사용하여 이 지식을 효과적인 저수준 동작으로 변환하는 데 어려움을 겪는다는 것을 시사합니다. 본 논문에서는 Tool Bridging이라는 전략의 효과를 입증합니다. 이 전략은 범용 셸 명령을 도메인 인식 추상화로 대체합니다. 이 접근 방식은 두 가지 메커니즘을 통해 작동한다고 가설을 세웁니다. 1) LLM이 더 안정적으로 사용하는 API와 같은 형식으로 도구를 제공하고, 2) 동작 공간을 관련 작업으로 제한합니다. 이 접근 방식은 모델의 높은 수준의 추론과 효과적인 저수준 실행 간의 격차를 해소합니다.

시사점, 한계점

시사점:
Android 빌드 오류 해결을 위한 LLM 기반 접근 방식의 성공적인 구현.
도메인 특정 도구와 Tool Bridging 전략을 활용하여 LLM의 성능을 향상시킴.
AndroidBuildBench 벤치마크의 구축으로 관련 연구의 발전을 위한 기반 마련.
한계점:
특정 Android 프로젝트와 Gradle 빌드 환경에 초점을 맞춤.
일반적인 코딩 에이전트보다 높은 성능을 보였지만, 아직 해결해야 할 오류가 존재함.
Tool Bridging 전략의 일반화 가능성에 대한 추가 연구 필요.
👍