Fox-1은 3조 토큰의 웹 스크랩 문서 데이터로 사전 훈련되고, 50억 토큰의 지시 따르기 및 다회차 대화 데이터로 미세 조정된 일련의 소형 언어 모델(SLM)입니다. Fox-1-1.6B와 Fox-1-1.6B-Instruct-v0.1 두 가지 모델로 구성되며, 사전 훈련 효율 향상을 위해 2K-8K 시퀀스 길이를 갖는 3단계 데이터 커리큘럼을 도입했습니다. 더 깊은 계층 구조, 확장된 어휘, 그리고 그룹화된 쿼리 어텐션(GQA)을 특징으로 하며, 다른 SLM에 비해 성능과 효율성이 뛰어납니다. StableLM-2-1.6B, Gemma-2B, Qwen1.5-1.8B, OpenELM1.1B 등과 비교하여 다양한 벤치마크에서 동등하거나 더 나은 성능을 달성하며, 경쟁력 있는 추론 속도와 처리량을 제공합니다. Apache 2.0 라이선스 하에 모델 가중치가 공개되어 LLM의 민주화를 촉진하고 오픈소스 커뮤니티에 완전히 접근 가능하게 합니다.