Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

N-ReLU: Zero-Mean Stochastic Extension of ReLU

Created by
  • Haebom
Category
Empty

저자

Md Motaleb Hossen Manik, Md Zabirul Islam, Ge Wang

개요

N-ReLU는 딥 뉴럴 네트워크에서 비선형 표현을 가능하게 하는 활성화 함수로, ReLU의 문제점인 "dead" 뉴런 문제를 해결하기 위해 고안되었습니다. N-ReLU는 음수 활성화를 평균이 0인 가우시안 노이즈로 대체하여 예상 출력값을 동일하게 유지합니다. MNIST 데이터셋에서 MLP 및 CNN 아키텍처를 사용하여 실험한 결과, N-ReLU는 ReLU, LeakyReLU, PReLU, GELU, RReLU와 유사하거나 약간 더 높은 정확도를 보였으며, 안정적인 수렴과 dead 뉴런이 없는 것을 확인했습니다.

시사점, 한계점

시사점:
가벼운 가우시안 노이즈 주입을 통해 네트워크 구조를 변경하거나 추가 파라미터를 도입하지 않고도 최적화 견고성을 향상시킬 수 있음.
ReLU의 dead neuron 문제를 해결하여 gradient flow를 유지.
MNIST 데이터셋에서 다양한 활성화 함수와 유사하거나 더 나은 성능을 보임.
한계점:
본 논문에서는 MNIST 데이터셋에 국한되어 실험을 진행했으므로, 다른 데이터셋에서의 일반화 성능은 추가 연구가 필요함.
적절한 노이즈 레벨(sigma) 설정에 따라 성능이 달라질 수 있으며, 최적의 노이즈 레벨을 찾는 추가적인 연구가 필요함.
👍