Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?

Created by
  • Haebom

저자

Ori Press, Brandon Amos, Haoyu Zhao, Yikai Wu, Samuel K. Ainsworth, Dominik Krupke, Patrick Kidger, Touqir Sajed, Bartolomeo Stellato, Jisun Park, Nathanael Bosch, Eli Meril, Albert Steppi, Arman Zharmagambetov, Fangzhao Zhang, David Perez-Pineiro, Alberto Mercurio, Ni Zhan, Talor Abramovich, Kilian Lieret, Hanlin Zhang, Shirley Huang, Matthias Bethge, Ofir Press

AlgoTune: 알고리즘 설계를 위한 개방형 벤치마크

개요

언어 모델(LM)의 성능 향상에도 불구하고, 기존 평가는 인간이 해결한 프로그래밍 및 수학 관련 작업에 집중되었다. 본 연구에서는 LM이 컴퓨터 과학, 물리학, 수학 분야의 계산적으로 어려운 문제를 효율적으로 해결하는 코드를 작성하는 능력을 평가하는 개방형 벤치마크인 AlgoTune을 제안한다. AlgoTune은 도메인 전문가로부터 수집한 154개의 코딩 작업과 LM이 생성한 솔루션 코드를 검증하고 타이밍을 측정하는 프레임워크로 구성된다. 또한, AlgoTuner라는 기본 LM 에이전트를 개발하고, 이를 다양한 최첨단 모델에서 평가했다. AlgoTuner는 코드 편집, 컴파일 및 실행, 성능 프로파일링, 테스트를 통한 정확성 검증, 가장 빠른 유효 버전 선택을 수행하는 간단한 예산 루프를 사용한다. AlgoTuner는 SciPy, sk-learn, CVXPY와 같은 라이브러리를 사용하는 참조 솔버 대비 평균 1.72배의 속도 향상을 달성했다. 하지만, 현재 모델은 표면적인 최적화만 선호하며 알고리즘 혁신을 발견하는 데 실패했다. AlgoTune이 최첨단 인간 성능을 넘어 창의적인 문제 해결 능력을 보이는 LM 에이전트 개발을 촉진할 것으로 기대한다.

시사점, 한계점

AlgoTune은 LM의 알고리즘 설계 능력을 평가하는 새로운 개방형 벤치마크를 제시한다.
AlgoTuner 에이전트는 참조 솔버 대비 상당한 속도 향상을 보였다.
현재 LM은 알고리즘 혁신을 발견하는 데 어려움을 겪는다.
AlgoTune은 LM의 알고리즘 설계 능력 향상을 위한 추가 연구를 촉진할 수 있다.
👍