Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws

Created by
  • Haebom

저자

Prasanna Mayilvahanan, Thaddaus Wiedemer, Sayak Mallick, Matthias Bethge, Wieland Brendel

개요

본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 손실-대-손실 스케일링 법칙(loss-to-loss scaling laws)의 요인을 조사합니다. 기존 스케일링 법칙이 모델 크기, 토큰 수, 연산량의 균형에 초점을 맞춘 반면, 본 논문은 사전 훈련 데이터셋과 하위 작업 간 손실의 관계에 주목합니다. 실험 결과, 사전 훈련 데이터와 토크나이저가 스케일링 추세를 결정하는 가장 중요한 요소임을 밝혔습니다. 모델 크기, 최적화 하이퍼파라미터, 심지어 Llama와 같은 Transformer 기반 모델과 Mamba와 같은 상태 공간 모델 간의 상당한 아키텍처 차이조차도 제한적인 영향만 미치는 것으로 나타났습니다. 따라서 최적의 하위 작업 성능을 위해서는 사전 훈련 데이터셋을 신중하게 선택해야 하며, 아키텍처 및 기타 설정은 훈련 효율성을 위해 자유롭게 최적화할 수 있습니다.

시사점, 한계점

시사점:
사전 훈련 데이터셋의 품질이 LLM 성능에 결정적인 영향을 미침을 강조합니다.
아키텍처 및 하이퍼파라미터 최적화보다 사전 훈련 데이터셋 선정에 집중해야 함을 시사합니다.
훈련 효율성을 위해 아키텍처 및 다른 설정을 자유롭게 최적화할 수 있음을 보여줍니다.
한계점:
본 연구에서 고려된 아키텍처 및 하이퍼파라미터의 종류와 범위가 제한적일 수 있습니다.
특정 유형의 데이터셋이나 작업에만 국한된 결과일 가능성이 있습니다.
더 다양한 모델과 데이터셋에 대한 추가 연구가 필요합니다.
👍