Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Created by
  • Haebom

저자

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

개요

본 논문은 92개의 오픈소스 사전 훈련된 언어 모델을 메타 분석하여 모델 크기와 훈련 토큰 수 외의 요소들이 모델 성능에 미치는 영향을 정량적으로 분석합니다. 모델 크기와 훈련 데이터의 양만으로는 설명할 수 없는 성능 차이를 규명하고, 데이터 구성 (예: 코드와 언어 데이터 비율), 아키텍처 설계 (예: 회전 임베딩 대 학습된 임베딩) 등의 요소가 모델 성능에 중요한 영향을 미친다는 것을 발견했습니다. 이를 통해 하류 작업 성능 예측 능력을 3~28% 향상시킬 수 있었습니다. 본 연구는 모델 개발 과정에서의 선택이 최종 성능에 어떻게 영향을 미치는지에 대한 체계적인 연구의 기반을 마련합니다.

시사점, 한계점

시사점:
모델 크기와 훈련 데이터 외에도 데이터 구성, 아키텍처 설계 등 다양한 요소들이 모델 성능에 큰 영향을 미친다는 것을 정량적으로 밝힘.
코드와 언어 데이터의 최적 비율(15-25% 코드)과 회전 임베딩의 우수성을 제시.
모델 성능 예측 능력 향상을 위한 새로운 프레임워크 제시.
더 체계적인 모델 개발 연구를 위한 기반 마련.
한계점:
분석에 사용된 모델이 모두 오픈소스 모델로 제한됨. 폐쇄형 모델의 데이터는 포함되지 않음.
특정 아키텍처나 데이터 구성의 우수성을 일반화하기에는 추가적인 연구가 필요.
분석된 모델의 다양성에 따라 결과의 일반화 가능성에 한계 존재.
👍