Bielik v3는 폴란드어 처리에 최적화된 매개변수 효율적인 생성 텍스트 모델(1.5B 및 4.5B) 시리즈입니다. 본 논문은 더 작고 잘 최적화된 아키텍처가 훨씬 더 큰 모델과 비교할 만한 성능을 달성하면서 상당히 적은 계산 자원을 필요로 함을 보여줍니다. 토큰 효율을 크게 향상시키는 맞춤형 폴란드어 토크나이저(APT4), 명령어 유형 간의 학습 균형을 맞추는 가중 명령어 교차 엔트로피 손실, 그리고 훈련 진행 상황에 따라 동적으로 조정되는 적응형 학습률 등 몇 가지 핵심적인 혁신을 통합했습니다. 3억 개의 문서에 걸쳐 2,920억 개의 토큰으로 구성된 엄선된 말뭉치를 사용하여 훈련된 이 모델은 Open PL LLM 리더보드, 복잡한 폴란드어 텍스트 이해 벤치마크, Polish EQ-Bench 및 Polish Medical 리더보드를 포함한 여러 벤치마크에서 우수한 성능을 보입니다. 4.5B 매개변수 모델은 크기가 2~3배인 모델과 경쟁력 있는 결과를 얻었으며, 1.5B 모델은 매우 컴팩트한 프로필에도 불구하고 강력한 성능을 제공합니다. 이러한 발전은 자원이 제한된 애플리케이션에서 고품질 폴란드어 AI를 더욱 접근 가능하게 만들면서, 언어 표현이 부족한 언어에서 매개변수 효율적인 언어 모델링에 대한 새로운 기준을 제시합니다.