Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

Created by
  • Haebom

저자

Anjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 어셈블리 코드 최적화 가능성을 조사한 연구입니다. 기존의 고수준 언어에서는 표현하기 어려운 미세한 실행 제어를 가능하게 하는 어셈블리 코드의 성능 향상에 LLM을 활용하는지 연구합니다. Proximal Policy Optimization (PPO) 기반 강화 학습 프레임워크를 제시하며, 테스트 케이스를 통한 기능적 정확성과 gcc -O3 컴파일러 대비 실행 성능을 고려하는 보상 함수를 사용하여 LLM을 학습시킵니다. 8,072개의 실제 프로그램으로 구성된 벤치마크를 사용하여, Qwen2.5-Coder-7B-PPO 모델이 96.0%의 테스트 통과율과 gcc -O3 대비 평균 1.47배의 속도 향상을 달성함을 보였고, Claude-3.7-sonnet을 포함한 다른 20개 모델보다 우수한 성능을 보였습니다. 이는 강화 학습을 통해 LLM이 어셈블리 코드 성능 최적화에 효과적인 도구가 될 수 있음을 시사합니다.

시사점, 한계점

시사점:
강화 학습 기반 LLM을 이용한 어셈블리 코드 최적화의 가능성을 보여줌.
Qwen2.5-Coder-7B-PPO 모델이 기존 컴파일러보다 우수한 성능을 달성.
LLM을 이용한 코드 최적화 분야의 새로운 연구 방향 제시.
한계점:
벤치마크 데이터셋의 범용성 및 대표성에 대한 검토 필요.
특정 LLM과 강화 학습 알고리즘에 대한 의존성.
실제 응용 프로그램에서의 일반화 성능에 대한 추가 연구 필요.
8072개의 프로그램 규모는 실제 대규모 애플리케이션에 적용 가능한지를 판단하기에는 부족할 수 있음.
👍