Sign In

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

Created by
  • Haebom
Category
Empty

저자

Burc Gokden

개요

본 논문은 Power Law Decoder Representations (PLDR)을 기반으로 하는 대규모 언어 모델(PLDR-LLM)이 추론 출력이 작은 섭동을 제외하고 불변 텐서임을 보여줍니다. PLDR-LLM은 추론 출력을 생성하는 Power Law Graph Attention (PLGA)의 심층 신경망을 추론된 에너지-곡률 텐서 $\mathbf{G}{LM}$로 대체할 수 있게 하는 특이점 조건을 학습합니다. $\mathbf{G}{LM}$ (G-캐시)와 KV-캐시를 위한 캐시를 구현하여 추론 시간을 향상시킬 수 있음을 보여줍니다. 추론 출력의 불변성과 일반화 가능성은 매우 높은 충실도를 가지며, 캐싱 후 추론 출력은 최대 15자리까지 동일한 RMSE와 행렬식 값을 가지고 제로샷 벤치마크 점수는 변하지 않습니다. 에이블레이션 연구는 학습된 추론 출력이 전이된, 무작위로 초기화된, 또는 항등 텐서를 상수 텐서 연산자로 사용하여 사전 훈련된 모델과 구별되는 손실 및 정확도 특성을 가짐을 보여주며, 스케일드-닷 프로덕트 어텐션(SDPA)을 사용하는 LLM은 $\mathbf{G}_{LM}$이 항등으로 사전 정의된 PLDR-LLM의 특수한 경우임을 보여줍니다. 관찰된 불변 특성은 캐싱을 통해 훈련 및 추론 단계 간에 새로운 비대칭성을 도입합니다. 학습된 특이점 조건에 대한 추론 출력의 일반적인 특성을 제시하고, KV-캐시와 G-캐시를 사용한 PLDR-LLM의 훈련 및 추론 프레임워크를 구현합니다.

시사점, 한계점

시사점:
PLDR-LLM의 추론 출력의 불변성을 활용하여 추론 시간을 단축할 수 있는 캐싱 기법을 제시.
PLDR-LLM이 SDPA 기반 LLM의 일반화된 모델임을 보임.
학습된 추론 출력의 특이점 조건에 대한 통찰력 제공.
효율적인 훈련 및 추론 프레임워크 제공.
한계점:
특이점 조건의 일반화 가능성에 대한 추가 연구 필요.
다양한 LLM 아키텍처에 대한 적용 가능성 검증 필요.
실제 응용 분야에서의 성능 평가 필요.
$\mathbf{G}_{LM}$의 해석 가능성에 대한 추가 연구 필요.
👍