Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces
Created by
Haebom
저자
Anjiang Wei, Allen Nie, Thiago S. F. X. Teixeira, Rohan Yadav, Wonchan Lee, Ke Wang, Alex Aiken
개요
본 논문은 고성능 컴퓨팅에 의존하는 현대 과학 발견에서 병렬 프로그램 성능 향상의 주요 과제인 작업-프로세서 및 데이터-메모리 매핑을 효율적으로 수행하는 매퍼(mapper) 개발의 어려움을 해결하기 위한 프레임워크를 제시한다. 기존의 수동 튜닝 방식의 어려움을 극복하고자 생성적 최적화를 활용하여 매퍼 개발을 자동화하는 접근 방식을 제안한다. Domain-Specific Language(DSL)을 사용하여 시스템 코드의 복잡성을 추상화하고 구조화된 검색 공간을 정의하며, AutoGuide라는 메커니즘을 통해 원시 실행 결과를 실행 가능한 피드백으로 변환한다. 기존의 OpenTuner와 같은 강화 학습 방식보다 적은 반복 횟수로 우수한 매퍼를 찾아내며, 10회 반복만으로 1000회 반복된 OpenTuner보다 3.8배 빠른 성능을 달성한다. 9개의 벤치마크에서 전문가가 작성한 매퍼보다 최대 1.34배 빠른 속도 향상을 보이며, 튜닝 시간을 수일에서 수분으로 단축한다.
시사점, 한계점
•
시사점:
◦
생성적 최적화를 활용하여 고성능 매퍼 개발 자동화 가능성을 제시.
◦
DSL과 AutoGuide를 통해 매퍼 개발의 복잡성과 튜닝 시간을 획기적으로 감소.
◦
기존 강화학습 기반 방법론 대비 훨씬 적은 반복 횟수로 우수한 성능 달성.
◦
전문가 수준을 능가하는 매퍼 자동 생성 가능성 입증.
•
한계점:
◦
제안된 프레임워크의 일반성 및 다양한 시스템 아키텍처에 대한 적용성 검증 필요.
◦
AutoGuide의 효율성 및 정확성에 대한 추가적인 분석 및 개선 필요.
◦
제한된 벤치마크 세트에 대한 평가 결과이므로, 더욱 광범위한 실험이 필요.
◦
실제 과학 응용 분야에 적용 시 발생할 수 있는 문제점 및 해결 방안에 대한 추가 연구 필요.