본 논문은 프랑스어 중심의 다국어 말뭉치인 Lucie Training Dataset과 이를 기반으로 학습된 기초 모델 Lucie-7B를 소개합니다. Lucie Training Dataset은 기존의 영어 중심적인 대규모 언어 모델 사전 학습 데이터셋의 편향을 해소하기 위해 제작되었으며, 프랑스어 데이터는 웹뿐 아니라 프랑스 문화유산 문서도 포함하여 현대 데이터셋의 중요한 공백을 채웁니다. 프랑스어 외에도 영어, 스페인어, 독일어, 이탈리아어 등 여러 유럽 언어의 문서를 포함하고 있으며, 저작권 자료를 최소화하여 데이터 권리를 우선시합니다. Lucie-7B는 프랑스어와 영어 데이터를 각각 약 33%씩 사용하여 프랑스어권 문화적 측면을 더 잘 반영하고자 하였습니다. 또한, Lucie-7B를 활용한 두 개의 지시어 미세 조정 모델(Lucie-7B-Instruct-v1.1 및 Lucie-7B-Instruct-human-data)을 선보이며, 최첨단 모델에 비해 유망한 결과를 보여줍니다. 모델 가중치와 코드는 Hugging Face와 GitHub에 공개되어 있으며, 새로운 OSI 정의에 따라 첫 번째 OSI 준수 언어 모델 중 하나입니다.