What I cannot execute, I do not understand: Training and Evaluating LLMs on Program Execution Traces
Created by
Haebom
Category
Empty
저자
Jordi Armengol-Estape, Quentin Carbonneaux, Tianjun Zhang, Aram H. Markosyan, Volker Seeker, Chris Cummins, Melanie Kambadur, Michael F. P. O'Boyle, Sida Wang, Gabriel Synnaeve, Hugh James Leather
개요
본 논문은 대규모 언어 모델(LLM)의 코드 생성 및 이해 능력 향상을 위해 실행 추적(Execution Trace)을 활용한 새로운 학습 방법인 실행 튜닝(Execution Tuning, E.T.)을 제안합니다. 기존의 코드 데이터셋이 코드를 정적인 문자열로 취급하는 것과 달리, E.T.는 프로그램 실행 추적을 명시적으로 모델링하여 동적인 실행 정보를 활용합니다. 라인 단위 및 명령어 단위의 다양한 실행 추적 입도와 전략을 사용하여 모델을 학습하고 평가한 결과, CruxEval과 MBPP에서 약 80%의 정확도를 달성하였으며, 특히 긴 실행(최대 14,000단계)에서 동적 스크래치패드(과거 계산의 기록으로 누적되는 대신 모델에 의해 업데이트되는 자체 포함 중간 계산)의 장점을 보여줍니다. 마지막으로 E.T.의 실제 응용 분야에 대해 논의합니다.
시사점, 한계점
•
시사점:
◦
실행 추적 정보를 활용하여 LLM의 코드 생성 및 이해 능력을 향상시키는 새로운 학습 방법(E.T.) 제시.
◦
다양한 실행 추적 입도(라인, 명령어 단위)와 전략에 대한 실험적 결과 제시 및 비교 분석.
◦
긴 실행에서 동적 스크래치패드의 효과성 입증.
◦
CruxEval과 MBPP에서 높은 정확도(약 80%) 달성.
•
한계점:
◦
제시된 방법의 확장성 및 다양한 프로그래밍 언어 및 코드 스타일 적용 가능성에 대한 추가 연구 필요.