본 논문은 대규모 언어 모델(LLM) 연구의 투명성과 재현성을 높이기 위해, 완전히 공개된 30억 개의 매개변수를 가진 Instella 모델을 소개합니다. Instella는 공개적으로 사용 가능한 데이터와 코드베이스를 사용하여 훈련되었으며, AMD Instinct MI300X GPU를 활용하여 대규모 사전 훈련, 일반적인 목적의 instruction tuning, 인간 선호도에 따른 정렬 과정을 거쳤습니다. Instella는 동시대 모델보다 적은 수의 사전 훈련 토큰을 사용했음에도 불구하고, 완전히 공개된 모델 중 최고 성능을 달성했으며, 비슷한 크기의 선도적인 공개 가중치 모델과 경쟁할 수 있습니다. 또한, 최대 128K 토큰의 컨텍스트 길이를 처리할 수 있는 Instella-Long과 수학적 추론에 특화된 Instella-Math 모델을 함께 공개합니다.
시사점, 한계점
•
시사점:
◦
완전 공개된 모델을 통해 투명성과 재현성 확보
◦
상당히 적은 사전 훈련 토큰으로도 경쟁력 있는 성능 달성
◦
특화된 모델 변형(Instella-Long, Instella-Math)을 통해 다양한 task에 활용 가능성 제시