Instella는 완전히 공개된 30억 개의 파라미터를 가진 언어 모델 제품군으로, 공개된 데이터와 코드베이스를 사용하여 훈련되었습니다. AMD Instinct MI300X GPU를 사용하여 대규모 사전 훈련, 일반적인 목적의 instruction tuning, 그리고 인간 선호도에 따른 정렬을 통해 개발되었습니다. Instella는 동시대 모델들보다 훨씬 적은 사전 훈련 토큰을 사용했음에도 불구하고, 완전히 공개된 모델 중 최고 성능을 달성했으며, 유사한 크기의 선도적인 open-weight 모델과 경쟁합니다. 또한 최대 128K 토큰의 컨텍스트 길이를 처리할 수 있는 Instella-Long과, 수학적 작업에 대한 감독 학습 및 강화 학습을 통해 향상된 추론 중심 모델인 Instella-Math의 두 가지 특화된 변형을 출시했습니다.
시사점, 한계점
•
시사점:
◦
완전 공개된 언어 모델 분야에서 뛰어난 성능을 보임.
◦
투명성, 재현성, 개방형 언어 모델 연구 발전에 기여.
◦
Instella-Long 및 Instella-Math와 같은 특화된 변형 모델 제공.
•
한계점:
◦
논문에 명시된 한계점은 없음. (단, 30억 파라미터로, 더 큰 모델에 비해 성능에 한계가 있을 수 있음)