# Preserving Plasticity in Continual Learning with Adaptive Linearity Injection

### 저자

Seyed Roozbeh Razavi Rohani, Khashayar Khajavi, Wesley Chung, Mo Chen, Sharan Vaswani

### 개요

본 논문은 심층 신경망에서의 가소성 상실 문제를 해결하기 위해 AdaLin(Adaptive Linearization)이라는 새로운 방법을 제안합니다.  AdaLin은 각 뉴런의 활성화 함수를 동적으로 적응시켜 기울기 신호를 충분히 유지하고 지속적인 학습을 가능하게 합니다. 기존의 규제나 주기적인 재설정 방식과 달리, AdaLin은 각 뉴런에 학습 가능한 파라미터와 게이트 메커니즘을 도입하여 기울기 흐름에 따라 선형성을 활성화 함수에 주입합니다.  추가적인 하이퍼파라미터나 명시적인 작업 경계 없이도 다양한 벤치마크(Random Label 및 Permuted MNIST, Random Label 및 Shuffled CIFAR-10, Class-Split CIFAR-100, CIFAR-100에서의 클래스 증분 학습 등)와 오프 폴리시 강화 학습에서 성능 향상을 보입니다.  뉴런 수준의 적응이 성능에 중요한 역할을 한다는 것을 실험적으로 보여주고, 가소성 상실과 관련된 여러 네트워크 지표들을 분석합니다.

### 시사점, 한계점

- **시사점:**

    - 심층 신경망의 가소성 상실 문제를 효과적으로 해결하는 새로운 방법인 AdaLin을 제시합니다.

    - 추가적인 하이퍼파라미터나 작업 경계 없이도 지속적인 학습을 가능하게 합니다.

    - 다양한 벤치마크와 복잡한 시나리오(클래스 증분 학습, 오프 폴리시 강화 학습)에서 성능 향상을 입증합니다.

    - 뉴런 수준의 적응이 가소성 상실 해결에 중요함을 밝힙니다.

- **한계점:**

    - 본 논문에서 제시된 분석은 특정 벤치마크 및 네트워크 구조에 국한될 수 있습니다.  더욱 다양한 실험 환경에서의 검증이 필요합니다.

    - AdaLin의 계산 비용 및 메모리 사용량에 대한 자세한 분석이 부족합니다.  실제 응용에 있어 효율성을 평가할 필요가 있습니다.

    - 가소성 상실과 관련된 네트워크 지표의 상관관계 분석이 더욱 심도있게 이루어질 필요가 있습니다.  인과관계를 명확히 규명하는 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2505.09486)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).