본 논문은 코드 생성 도구에서 필수적인 요소가 된 언어 모델(LM)의 사전 훈련 방식 개선에 초점을 맞추고 있습니다. 기존의 코드 LM 사전 훈련 방식은 데이터 소싱 및 필터링 전략의 변화를 제외하고는 정체되어 있었으며, 특히 자연어 LM과 비교하여 구문과 의미를 더 잘 분리하고 데이터 효율성을 향상시키기 위한 코드 LM의 사전 훈련 목표 수정에 대한 연구는 부족했습니다. 본 연구에서는 난독화된 코드를 기반으로 사전 훈련하여 코드 LM이 표면적인 구문을 넘어서도록 하고 사전 훈련 샘플 효율성을 높이는 방법을 조사합니다. 7개 언어의 약 55M개의 소스 코드와 난독화된 코드 쌍으로 구성된 ObscuraX 데이터셋을 만들고, ObscuraX를 포함한 272B 토큰 코퍼스를 사용하여 2억 5천만~28억 매개변수의 ObscuraCoder 모델을 사전 훈련했습니다. 그 결과, 기존의 자동 회귀 사전 훈련 및 기존의 난독화 해제(DOBF) 목표와 비교하여 난독화 기반 사전 훈련 방식이 코드 LM의 성능을 향상시키는 것을 보여줍니다. ObscuraCoder는 구문 및 의미 코드 이해, 다국어 코드 완성, 다국어 코드 커밋 요약, 다목적 라이브러리 기반 코드 생성 등 여러 테스트에서 상당한 성능 향상을 보였습니다.