Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
Created by
Haebom
저자
Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig
개요
본 논문은 92개의 오픈소스 사전 훈련된 언어 모델을 메타 분석하여 모델 크기와 훈련 토큰 수 외의 요소들이 모델 성능에 미치는 영향을 정량적으로 분석합니다. 모델 크기와 훈련 데이터의 양만으로는 설명할 수 없는 성능 차이를 규명하고, 데이터 구성 (예: 코드와 언어 데이터 비율), 아키텍처 설계 (예: 회전 임베딩 대 학습된 임베딩) 등의 요소가 모델 성능에 중요한 영향을 미친다는 것을 발견했습니다. 이를 통해 하류 작업 성능 예측 능력을 3~28% 향상시킬 수 있었습니다. 본 연구는 모델 개발 과정에서의 선택이 최종 성능에 어떻게 영향을 미치는지에 대한 체계적인 연구의 기반을 마련합니다.
시사점, 한계점
•
시사점:
◦
모델 크기와 훈련 데이터 외에도 데이터 구성, 아키텍처 설계 등 다양한 요소들이 모델 성능에 큰 영향을 미친다는 것을 정량적으로 밝힘.
◦
코드와 언어 데이터의 최적 비율(15-25% 코드)과 회전 임베딩의 우수성을 제시.
◦
모델 성능 예측 능력 향상을 위한 새로운 프레임워크 제시.
◦
더 체계적인 모델 개발 연구를 위한 기반 마련.
•
한계점:
◦
분석에 사용된 모델이 모두 오픈소스 모델로 제한됨. 폐쇄형 모델의 데이터는 포함되지 않음.