Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

$\mu$PC: Scaling Predictive Coding to 100+ Layer Networks

Created by
  • Haebom
Category
Empty

저자

Francesco Innocenti, El Mehdi Achour, Christopher L. Buckley

개요

본 논문은 역전파(backpropagation, BP)의 생물학적 타당성 부족으로 인해 등장한 예측 코딩(predictive coding, PC)과 평형 전파(equilibrium propagation)와 같은 뇌 기반 알고리즘의 문제점을 해결하고자 한다. 특히, PC 네트워크(PCN)가 매우 깊은 네트워크를 학습하는 데 어려움을 겪는 문제를 해결하기 위해 Depth-$\mu$P 파라미터화(μPC)를 활용하여 100개 이상의 레이어를 가진 PCN을 안정적으로 학습할 수 있음을 보였다. PCN의 스케일링 동작을 분석하여, μPC가 안정적인 학습을 가능하게 하는 이유를 설명하고, 간단한 분류 작업에서 경쟁력 있는 성능을 달성하며, 너비와 깊이에 걸쳐 가중치 및 활동 학습 속도의 제로샷 전송을 가능하게 함을 입증했다.

시사점, 한계점

시사점:
Depth-$\mu$P 파라미터화를 통해 PCN의 스케일링 문제를 해결하여, 매우 깊은 (최대 128 레이어) PCN의 안정적인 학습을 가능하게 함.
간단한 분류 작업에서 경쟁력 있는 성능을 보임.
너비와 깊이에 걸쳐 가중치 및 활동 학습 속도의 제로샷 전송이 가능.
PC의 스케일링에 대한 첫 번째 단계로서, 다른 로컬 알고리즘에도 영향을 미칠 수 있음.
μPC를 위한 JAX 라이브러리 코드 공개.
한계점:
단순한 분류 작업에 대한 성능만 평가됨.
PCN의 모든 불안정성을 해결하지는 않음.
더 복잡한 아키텍처 및 작업으로의 확장에 대한 추가 연구 필요.
👍