Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Instella: Fully Open Language Models with Stellar Performance

Created by
  • Haebom
Category
Empty

저자

Jiang Liu, Jialian Wu, Xiaodong Yu, Yusheng Su, Prakamya Mishra, Gowtham Ramesh, Sudhanshu Ranjan, Chaitanya Manem, Ximeng Sun, Ze Wang, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum

개요

본 논문은 대규모 언어 모델(LLM) 연구의 투명성과 재현성을 높이기 위해, 완전히 공개된 30억 개의 매개변수를 가진 Instella 모델을 소개합니다. Instella는 공개적으로 사용 가능한 데이터와 코드베이스를 사용하여 훈련되었으며, AMD Instinct MI300X GPU를 활용하여 대규모 사전 훈련, 일반적인 목적의 instruction tuning, 인간 선호도에 따른 정렬 과정을 거쳤습니다. Instella는 동시대 모델보다 적은 수의 사전 훈련 토큰을 사용했음에도 불구하고, 완전히 공개된 모델 중 최고 성능을 달성했으며, 비슷한 크기의 선도적인 공개 가중치 모델과 경쟁할 수 있습니다. 또한, 최대 128K 토큰의 컨텍스트 길이를 처리할 수 있는 Instella-Long과 수학적 추론에 특화된 Instella-Math 모델을 함께 공개합니다.

시사점, 한계점

시사점:
완전 공개된 모델을 통해 투명성과 재현성 확보
상당히 적은 사전 훈련 토큰으로도 경쟁력 있는 성능 달성
특화된 모델 변형(Instella-Long, Instella-Math)을 통해 다양한 task에 활용 가능성 제시
오픈 소스 LLM 연구 발전에 기여
한계점:
30억 개의 매개변수로, 더 큰 모델에 비해 성능의 한계 존재 가능성
사전 훈련 데이터 및 방법론에 대한 추가적인 정보 부족 가능성
제한된 자원을 활용한 모델 개발로, 다른 모델과의 성능 격차 존재 가능성
👍