본 논문은 GALLa(Graph Aligned Large Language Models)라는 프레임워크를 제시합니다. GALLa는 코드의 구조적 정보(데이터 흐름 등)를 그래프 형태로 표현하여, 기존의 코드 언어 모델(LLM)의 텍스트 토큰 기반 학습 방식에 추가적인 정보를 제공합니다. 기존의 구조 정보를 활용하는 모델들이 Transformer 아키텍처 수정을 필요로 하여 확장성이 제한되는 점을 극복하기 위해, GALLa는 그래프 신경망(GNN)과 교차 모드 정렬 기술을 활용하여 미세 조정 과정에서 보조 작업으로 구조 정보를 주입합니다. 이 프레임워크는 모델과 작업에 독립적이어서, 다양한 코드 LLM과 하위 작업에 적용 가능하며, 학습 시에만 구조 그래프 데이터가 필요하고 추론 시에는 추가 비용이 발생하지 않습니다. 3억 5천만 파라미터에서 140억 파라미터 규모의 7개의 LLM을 사용한 5가지 코드 작업 실험 결과, LLaMA3 및 Qwen2.5-Coder와 같은 강력한 모델에서도 기준 모델보다 성능이 향상되는 것을 확인했습니다.