Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Resurrection of the ReLU

Created by
  • Haebom

저자

Co\c{s}ku Can Horuz, Geoffrey Kasenbacher, Saya Higuchi, Sebastian Kairat, Jendrik Stoltz, Moritz Pesl, Bernhard A. Moser, Christoph Linse, Thomas Martinetz, Sebastian Otte

개요

본 논문은 ReLU의 단점인 '죽은 ReLU 문제'를 해결하기 위해 역전파 과정에서 ReLU의 미분을 부드러운 대체 함수로 바꾸는 새로운 정규화 기법인 SUGAR(Surrogate Gradient Learning for ReLU)를 제시합니다. SUGAR는 순전파 과정에서는 기존 ReLU를 사용하지만, 역전파 과정에서는 기울기가 0이 되는 것을 방지하는 부드러운 대체 함수를 사용하여 기울기를 계산합니다. 실험 결과, SUGAR는 VGG-16, ResNet-18과 같은 기존 CNN 아키텍처뿐만 아니라 Conv2NeXt, Swin Transformer와 같은 최신 아키텍처에서도 GELU와 같은 고급 활성화 함수를 대체하여 경쟁력 있는, 심지어 더 나은 성능을 보여줍니다. 이는 고급 활성화 함수가 최적의 성능에 필수적이라는 기존의 생각에 도전하는 결과입니다.

시사점, 한계점

시사점:
ReLU의 단점을 보완하여 성능을 향상시키는 새로운 정규화 기법 SUGAR 제시.
고급 활성화 함수 없이도 경쟁력 있는 성능 달성 가능성 제시.
기존 ReLU의 장점(단순성, 희소성)을 유지하면서 성능 향상.
다양한 딥러닝 비전 모델에 적용 가능성을 보임.
한계점:
제시된 surrogate function의 최적 선택에 대한 추가적인 연구 필요.
다양한 task와 데이터셋에 대한 추가적인 실험 필요.
SUGAR의 효과가 특정 아키텍처나 데이터셋에 국한될 가능성.
다른 활성화 함수와의 비교 분석이 더욱 심도 있게 필요.
👍