Gaperon은 대규모 모델 훈련의 투명성과 재현성을 향상시키기 위해 설계된 프랑스어-영어-코딩 언어 모델의 완전 공개 제품군입니다. Gaperon 제품군은 1.5B, 8B, 24B 파라미터 모델을 포함하며, 2-4조 토큰으로 학습되었습니다. 이 제품군은 신경망 품질 분류기를 사용하여 필터링된 프랑스어 및 영어 데이터 세트, 효율적인 데이터 큐레이션 및 훈련 프레임워크, 수백 개의 중간 체크포인트와 함께 공개됩니다. 데이터 필터링과 오염이 벤치마크 및 생성 성능에 어떻게 영향을 미치는지 연구합니다. 언어 품질 필터링은 텍스트 유창성과 일관성을 향상시키지만 벤치마크 결과는 저조하며, 테스트 세트를 포함하는 데이터 믹스에서 훈련을 계속하는 후기 의도적 오염은 경쟁력 있는 점수를 회복하면서 생성 품질에만 적당한 피해를 준다는 것을 발견했습니다. 벤치마크 누출을 의도치 않게 증폭시킬 수 있는 일반적인 신경 필터링에 대해 논의합니다. 추가 연구를 지원하기 위해 사전 훈련 중에 무해한 데이터 포이즈닝을 도입하여 안전성 연구를 위한 현실적인 테스트베드를 제공합니다. 모든 모델, 데이터 세트, 코드 및 체크포인트를 공개함으로써 Gaperon은 다국어 언어 모델 개발에서 데이터 큐레이션, 평가, 안전성 및 개방성 간의 균형을 탐구하기 위한 재현 가능한 기반을 구축합니다.