대규모 언어 모델(LLM)의 광범위한 사용에도 불구하고, 해당 모델의 강력한 기능은 훈련 데이터가 풍부한 소수의 고자원 언어에 제한적으로 적용됩니다. 본 논문에서는 지속적인 사전 훈련(CPT)을 사용하여 데이터 및 계산 예산이 제한적인 환경에서 저자원 지역 방언에 LLM을 미세 조정하는 연구를 수행했습니다. 특히, 저랭크 적응(LoRA)과 계산 효율적인 CPT를 활용하여 세 개의 LLM을 매우 적은 데이터셋을 사용해 퀘벡 프랑스어 방언에 적응시키고 COLE 스위트에서 벤치마킹했습니다. 실험 결과, 모델 매개변수의 1% 미만만을 업데이트했음에도 불구하고, 소수 방언 벤치마크에서 개선이 있었으며, 주류 언어 벤치마크에서는 최소한의 회귀만 발생했습니다. 결과 분석을 통해 코퍼스 구성에 따라 성능 향상이 크게 달라짐을 확인했습니다. 본 연구는 매개변수 효율적인 미세 조정을 통한 CPT가 비용 효율적이고 지속 가능한 언어 자원 생성을 통해 방언 격차를 줄이고, 소수 언어 커뮤니티에 고품질 LLM 접근성을 확대할 수 있음을 시사합니다. 또한, HuggingFace에 최초의 퀘벡 프랑스어 LLM을 공개했습니다.