Co\c{s}ku Can Horuz, Geoffrey Kasenbacher, Saya Higuchi, Sebastian Kairat, Jendrik Stoltz, Moritz Pesl, Bernhard A. Moser, Christoph Linse, Thomas Martinetz, Sebastian Otte
개요
본 논문은 ReLU의 단점인 '죽은 ReLU 문제'를 해결하기 위해 역전파 과정에서 ReLU의 미분을 부드러운 대체 함수로 바꾸는 새로운 정규화 기법인 SUGAR(Surrogate Gradient Learning for ReLU)를 제시합니다. SUGAR는 순전파 과정에서는 기존 ReLU를 사용하지만, 역전파 과정에서는 기울기가 0이 되는 것을 방지하는 부드러운 대체 함수를 사용하여 기울기를 계산합니다. 실험 결과, SUGAR는 VGG-16, ResNet-18과 같은 기존 CNN 아키텍처뿐만 아니라 Conv2NeXt, Swin Transformer와 같은 최신 아키텍처에서도 GELU와 같은 고급 활성화 함수를 대체하여 경쟁력 있는, 심지어 더 나은 성능을 보여줍니다. 이는 고급 활성화 함수가 최적의 성능에 필수적이라는 기존의 생각에 도전하는 결과입니다.