본 논문은 코드의 구조적 정보(데이터 흐름 등)를 활용하여 대규모 언어 모델(LLM)의 성능을 향상시키는 새로운 프레임워크인 GALLa(Graph Aligned Large Language Models)를 제안합니다. GALLa는 그래프 신경망과 교차 모달 정렬 기술을 사용하여 코드의 구조적 정보를 LLM의 미세 조정 과정에 보조 작업으로 주입합니다. 기존의 코드 LLM들은 소스 코드를 텍스트 토큰으로만 처리하는 반면, GALLa는 구조적 정보를 활용하여 성능을 개선합니다. 모델과 작업에 독립적이며, 학습 시에만 구조적 그래프 데이터를 필요로 하고 추론 시에는 추가 비용이 발생하지 않는다는 장점이 있습니다. 다양한 크기의 7개 LLM(3억 5천만 파라미터에서 140억 파라미터까지)과 5가지 코드 작업에 대한 실험 결과, GALLa는 기존 LLM들에 비해 일관적으로 성능 향상을 보였습니다.