Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
Created by
Haebom
Category
Empty
저자
Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig
개요
본 논문은 92개의 오픈소스 사전 훈련된 언어 모델을 메타 분석하여 모델 크기와 훈련 토큰 수 외의 요소들이 모델 성능에 미치는 영향을 정량적으로 분석했습니다. 모델 크기와 훈련 데이터 크기만으로는 설명할 수 없는 성능 차이를 규명하고자 다양한 규모와 설계 결정을 가진 모델들을 비교 분석했습니다. 분석 결과, 모델 설계 결정(데이터 구성, 아키텍처 선택 등)을 고려함으로써 downstream task 성능 예측의 정확도를 3~28% 향상시킬 수 있음을 보였습니다. 특히 코드와 언어 데이터의 비율(15-25% 코드), rotary embedding과 learned embedding의 선택 등이 성능에 영향을 미치는 요소로 제시되었습니다. 본 연구는 모델 개발 과정에서의 선택들이 최종 성능에 어떻게 영향을 미치는지에 대한 체계적인 연구의 기반을 마련합니다.
시사점, 한계점
•
시사점:
◦
모델 크기와 훈련 데이터 양 외에도 데이터 구성, 아키텍처 선택 등 모델 설계 결정이 성능에 큰 영향을 미침을 정량적으로 입증.
◦
코드와 언어 데이터의 최적 비율, rotary embedding의 우수성 등 구체적인 설계 가이드라인 제시.