본 논문은 대규모 언어 모델(LLM)을 이용한 어셈블리 코드 최적화 가능성을 조사한 연구입니다. 기존의 고수준 언어에서는 표현하기 어려운 미세한 실행 제어를 가능하게 하는 어셈블리 코드의 성능 향상에 LLM을 활용하는지 연구합니다. Proximal Policy Optimization (PPO) 기반 강화 학습 프레임워크를 제시하며, 테스트 케이스를 통한 기능적 정확성과 gcc -O3 컴파일러 대비 실행 성능을 고려하는 보상 함수를 사용하여 LLM을 학습시킵니다. 8,072개의 실제 프로그램으로 구성된 벤치마크를 사용하여, Qwen2.5-Coder-7B-PPO 모델이 96.0%의 테스트 통과율과 gcc -O3 대비 평균 1.47배의 속도 향상을 달성함을 보였고, Claude-3.7-sonnet을 포함한 다른 20개 모델보다 우수한 성능을 보였습니다. 이는 강화 학습을 통해 LLM이 어셈블리 코드 성능 최적화에 효과적인 도구가 될 수 있음을 시사합니다.