Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models

Created by
  • Haebom

저자

Yuqiao Tan, Shizhu He, Kang Liu, Jun Zhao

개요

본 논문은 서로 다른 크기의 대규모 언어 모델(LLM) 간의 매개변수를 통한 지식 전이(Parametric Knowledge Transfer, PKT)에 대한 연구를 다룬다. 기존의 상징적 언어에 기반한 지식 전이 방식을 넘어, LLM의 매개변수를 직접 활용하여 지식을 전이하는 방법을 탐구한다. 특히, 매개변수 공간의 정렬(Alignment)이 성공적인 크기 간 PKT의 기본 전제 조건임을 보여주고, 기존의 Post-Align PKT(PostPKT) 방식의 한계를 지적한다. 비용 효율적인 사전 정렬 PKT(PrePKT) 패러다임을 제시하고, LaTen(Locate-Then-Align)이라는 새로운 솔루션을 제안한다. LaTen은 추가적인 학습 없이 몇몇 학습 단계만으로 LLM의 매개변수 공간을 정렬한다. 실험 결과, PostPKT와 PrePKT 모두 일관된 안정적인 전이를 달성하는 데 어려움을 겪는다는 것을 보여주며, 서로 다른 크기의 LLM 간의 신경적 비호환성(Neural Incompatibility)을 효과적인 PKT 달성에 대한 근본적인 어려움으로 확인한다.

시사점, 한계점

시사점:
LLM 매개변수 공간의 정렬이 크기 간 PKT 성공의 필수 요소임을 규명.
기존 PostPKT의 한계를 극복하기 위한 PrePKT 패러다임과 LaTen 솔루션 제시.
LLM 크기 차이에 따른 신경적 비호환성을 효과적인 PKT의 주요 장벽으로 제시.
LLM의 매개변수 아키텍처에 대한 새로운 통찰력 제공.
효율적인 PKT를 위한 미래 연구 방향 제시.
한계점:
PostPKT와 PrePKT 모두 일관된 안정적인 지식 전이 달성에 어려움을 겪음.
신경적 비호환성의 원인과 해결 방안에 대한 추가 연구 필요.
👍