Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers

Created by
  • Haebom

저자

Joshua Barron, Devin White

개요

본 논문은 대규모 언어 모델(LLM)에서 암기와 일반화의 관계를 조사한 연구이다. 합성 문자 단위 작업(산술적 외삽을 통한 일반화 탐색 및 사실적 회상을 통한 암기 탐색)을 통해 용량 제한된 Transformer 모델을 사전 훈련시켰다. 그 결과, 작은 모델은 보이지 않는 산술 경우에 외삽하지만 사실을 암기하지 못하고, 큰 모델은 암기하지만 외삽하지 못하는 일관된 트레이드오프를 관찰했다. 중간 용량 모델에서도 암기 쪽으로 이동하는 유사한 현상이 나타났다. 두 작업을 함께 훈련시킨 경우, 모델 크기에 관계없이 어떤 모델도 외삽에 성공하지 못했다. 이는 사전 훈련이 본질적으로 한 학습 모드를 다른 학습 모드보다 선호할 수 있음을 시사한다. 통제된 환경에서 이러한 역학 관계를 분리함으로써 모델 용량이 학습 행동을 어떻게 형성하는지에 대한 통찰력을 제공하고 소규모 언어 모델의 설계 및 배포에 대한 광범위한 시사점을 제시한다.

시사점, 한계점

시사점:
모델 용량이 암기와 일반화 사이의 트레이드오프에 중요한 역할을 한다는 것을 보여준다.
사전 훈련 과정이 특정 학습 모드(암기 또는 일반화)를 선호할 수 있음을 시사한다.
소규모 언어 모델 설계 및 배포에 대한 시사점을 제공한다.
한계점:
합성 데이터셋을 사용하여 실제 세계 데이터셋에서의 일반화 가능성에 대한 검증이 부족하다.
연구에 사용된 모델의 종류 및 구조가 제한적이다.
암기와 일반화 외 다른 학습 메커니즘에 대한 고려가 부족할 수 있다.
👍