Sign In

Gaperon: A Peppered English-French Generative Language Model Suite

Created by
  • Haebom
Category
Empty

저자

Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Eric de la Clergerie, Benoit Sagot, Djame Seddah

개요

Gaperon은 대규모 모델 훈련의 투명성과 재현성을 향상시키기 위해 설계된 프랑스어-영어-코딩 언어 모델의 완전 공개 제품군입니다. Gaperon 제품군은 1.5B, 8B, 24B 파라미터 모델을 포함하며, 2-4조 토큰으로 학습되었습니다. 이 제품군은 신경망 품질 분류기를 사용하여 필터링된 프랑스어 및 영어 데이터 세트, 효율적인 데이터 큐레이션 및 훈련 프레임워크, 수백 개의 중간 체크포인트와 함께 공개됩니다. 데이터 필터링과 오염이 벤치마크 및 생성 성능에 어떻게 영향을 미치는지 연구합니다. 언어 품질 필터링은 텍스트 유창성과 일관성을 향상시키지만 벤치마크 결과는 저조하며, 테스트 세트를 포함하는 데이터 믹스에서 훈련을 계속하는 후기 의도적 오염은 경쟁력 있는 점수를 회복하면서 생성 품질에만 적당한 피해를 준다는 것을 발견했습니다. 벤치마크 누출을 의도치 않게 증폭시킬 수 있는 일반적인 신경 필터링에 대해 논의합니다. 추가 연구를 지원하기 위해 사전 훈련 중에 무해한 데이터 포이즈닝을 도입하여 안전성 연구를 위한 현실적인 테스트베드를 제공합니다. 모든 모델, 데이터 세트, 코드 및 체크포인트를 공개함으로써 Gaperon은 다국어 언어 모델 개발에서 데이터 큐레이션, 평가, 안전성 및 개방성 간의 균형을 탐구하기 위한 재현 가능한 기반을 구축합니다.

시사점, 한계점

시사점:
언어 품질 필터링은 텍스트 유창성과 일관성을 향상시킵니다.
후기 의도적 오염은 경쟁력 있는 벤치마크 점수를 회복할 수 있습니다.
신경 필터링은 벤치마크 누출을 증폭시킬 수 있습니다.
무해한 데이터 포이즈닝은 안전성 연구를 위한 테스트베드를 제공합니다.
훈련 파이프라인의 모든 요소를 공개하여 투명성과 재현성을 증진합니다.
한계점:
벤치마크 결과와 생성 품질 간의 상충 관계를 보임.
데이터 오염의 영향에 대한 추가 연구가 필요합니다.
안전성 연구를 위한 포이즈닝 기법은 제한적일 수 있습니다.
특정 언어 쌍(프랑스어-영어)에만 초점이 맞춰져 있습니다.
👍