본 논문은 코드 LLMs의 사전 훈련 방법인 Fill-in-the-Middle (FIM)을 개선하기 위해 AST(Abstract Syntax Trees)를 활용한 AST-FIM을 제안합니다. 기존 FIM은 코드를 일반 텍스트로 처리하고 임의의 문자열을 마스킹하는 반면, AST-FIM은 AST를 이용하여 완전한 구문 구조를 마스킹함으로써, 코드의 구조적 특성과 일반적인 코드 편집 패턴에 더 잘 맞는 일관성 있는 훈련 데이터를 생성합니다. 또한, 3만 개 이상의 GitHub 커밋으로부터 도출된 Real-FIM-Eval이라는 새로운 벤치마크를 제시하여 실제 코드 편집 작업에서의 성능을 평가합니다. 실험 결과, 10억 및 80억 파라미터 모델에서 AST-FIM이 기존의 FIM보다 최대 5점의 성능 향상을 보였습니다. 코드는 공개적으로 제공됩니다.