[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

$\mu$PC: Scaling Predictive Coding to 100+ Layer Networks

Created by
  • Haebom

저자

Francesco Innocenti, El Mehdi Achour, Christopher L. Buckley

개요

본 논문은 역전파(BP)의 생물학적 비현실성을 해결하기 위해 제안된 예측 코딩(PC) 알고리즘의 깊은 네트워크 학습 어려움을 다룹니다. 기존 PC 네트워크(PCN)의 심층화에 따른 훈련 어려움을 분석하고, Depth-$\mu$P 매개변수화를 사용한 "$\mu$PC"를 제시합니다. $\mu$PC는 최대 128층의 심층잔차 네트워크를 안정적으로 훈련하여 경쟁력 있는 성능을 보이며, 가중치 및 활동 학습률을 폭과 깊이에 걸쳐 제로샷 전이할 수 있음을 보여줍니다. 이는 다른 지역 알고리즘에도 시사점을 제공하며, 합성곱 및 트랜스포머 구조로 확장 가능성을 제시합니다. JAX 라이브러리를 통해 $\mu$PC 코드를 공개합니다.

시사점, 한계점

시사점:
Depth-$\mu$P 매개변수화를 이용한 $\mu$PC는 100층 이상의 심층 PCN을 안정적으로 훈련 가능하게 함.
$\mu$PC는 경쟁력 있는 성능을 보이며, 제로샷 전이를 통해 네트워크 폭과 깊이에 대한 적응력을 보임.
다른 지역 알고리즘 및 다른 아키텍처(합성곱, 트랜스포머)로 확장 가능성 제시.
JAX 라이브러리를 통해 코드 공개.
한계점:
현재 간단한 분류 작업에 대한 결과만 제시. 더 복잡한 작업으로의 확장성 검증 필요.
$\mu$PC가 PCN의 모든 불안정성을 해결하지는 못함. 추가적인 개선 여지 존재.
👍