Sign In

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Created by
  • Haebom
Category
Empty

저자

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

개요

본 논문은 92개의 오픈소스 사전 훈련된 언어 모델을 메타 분석하여 모델 크기와 훈련 토큰 수 외의 요소들이 모델 성능에 미치는 영향을 정량적으로 분석했습니다. 모델 크기와 훈련 데이터 크기만으로는 설명할 수 없는 성능 차이를 규명하고자 다양한 규모와 설계 결정을 가진 모델들을 비교 분석했습니다. 분석 결과, 모델 설계 결정(데이터 구성, 아키텍처 선택 등)을 고려함으로써 downstream task 성능 예측의 정확도를 3~28% 향상시킬 수 있음을 보였습니다. 특히 코드와 언어 데이터의 비율(15-25% 코드), rotary embedding과 learned embedding의 선택 등이 성능에 영향을 미치는 요소로 제시되었습니다. 본 연구는 모델 개발 과정에서의 선택들이 최종 성능에 어떻게 영향을 미치는지에 대한 체계적인 연구의 기반을 마련합니다.

시사점, 한계점

시사점:
모델 크기와 훈련 데이터 양 외에도 데이터 구성, 아키텍처 선택 등 모델 설계 결정이 성능에 큰 영향을 미침을 정량적으로 입증.
코드와 언어 데이터의 최적 비율, rotary embedding의 우수성 등 구체적인 설계 가이드라인 제시.
모델 성능 예측의 정확도 향상 (3~28%).
향후 모델 개발 방향에 대한 체계적인 연구 기반 마련.
한계점:
분석 대상이 오픈소스 모델로 제한됨. (폐쇄형 모델은 포함되지 않음)
모델 설계 결정의 복잡한 상호 작용에 대한 완전한 설명은 부족할 수 있음.
분석에 사용된 지표 및 평가 방식에 따라 결과가 달라질 수 있음.
👍