Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

Created by
  • Haebom

저자

Xinyi Wang, Shawn Tan, Mingyu Jin, William Yang Wang, Rameswar Panda, Yikang Shen

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력에 대한 스케일링 효과를 연구합니다. 실제 세계의 대규모 지식 그래프의 구조와 분포를 모방한 합성 다단계 추론 환경을 도입하여, 누락된 간선을 추론하는 과제를 설정했습니다. 불완전한 그래프의 트리플만으로 언어 모델을 사전 훈련하고 누락된 간선을 추론하는 능력을 평가했습니다. 그 결과, 과다 매개변수화는 과도한 암기로 인해 추론 성능을 저해할 수 있음을 발견했습니다. 그래프 구조, 모델 크기, 훈련 단계 등 다양한 요인이 U자형 손실 곡선에 영향을 미치는 것을 조사하였고, 특정 지식 그래프에 대한 최적 모델 크기를 예측하기 위해 지식 그래프 검색 엔트로피를 최적 모델 크기에 선형적으로 매핑하는 경험적 스케일링을 발견했습니다. 이 연구는 LLM의 스케일링과 추론 간의 관계에 대한 새로운 통찰력을 제공하며, 추론 작업에 대한 성능을 최적화하는 방법을 제시합니다.

시사점, 한계점

시사점:
LLM의 과다 매개변수화가 과도한 암기로 이어져 추론 성능을 저해할 수 있음을 밝힘.
지식 그래프의 검색 엔트로피와 최적 모델 크기 간의 경험적 스케일링 관계를 제시하여 최적 모델 크기 예측 가능성을 보임.
실제 세계의 추론 시나리오를 모방하는 새로운 합성 다단계 추론 환경을 제시.
LLM의 추론 성능 최적화 방안에 대한 새로운 통찰력 제공.
한계점:
제시된 합성 환경이 실제 세계의 모든 복잡성을 완벽하게 반영하지 못할 수 있음.
경험적 스케일링 관계의 일반화 가능성에 대한 추가 연구 필요.
다양한 유형의 지식 그래프에 대한 결과의 일반화 가능성 검증 필요.
👍