Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Instella: Fully Open Language Models with Stellar Performance

Created by
  • Haebom
Category
Empty

저자

Jiang Liu, Jialian Wu, Xiaodong Yu, Yusheng Su, Prakamya Mishra, Gowtham Ramesh, Sudhanshu Ranjan, Chaitanya Manem, Ximeng Sun, Ze Wang, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum

개요

Instella는 완전히 공개된 30억 개의 파라미터를 가진 언어 모델 제품군으로, 공개된 데이터와 코드베이스를 사용하여 훈련되었습니다. AMD Instinct MI300X GPU를 사용하여 대규모 사전 훈련, 일반적인 목적의 instruction tuning, 그리고 인간 선호도에 따른 정렬을 통해 개발되었습니다. Instella는 동시대 모델들보다 훨씬 적은 사전 훈련 토큰을 사용했음에도 불구하고, 완전히 공개된 모델 중 최고 성능을 달성했으며, 유사한 크기의 선도적인 open-weight 모델과 경쟁합니다. 또한 최대 128K 토큰의 컨텍스트 길이를 처리할 수 있는 Instella-Long과, 수학적 작업에 대한 감독 학습 및 강화 학습을 통해 향상된 추론 중심 모델인 Instella-Math의 두 가지 특화된 변형을 출시했습니다.

시사점, 한계점

시사점:
완전 공개된 언어 모델 분야에서 뛰어난 성능을 보임.
투명성, 재현성, 개방형 언어 모델 연구 발전에 기여.
Instella-Long 및 Instella-Math와 같은 특화된 변형 모델 제공.
한계점:
논문에 명시된 한계점은 없음. (단, 30억 파라미터로, 더 큰 모델에 비해 성능에 한계가 있을 수 있음)
👍