Robust Training of Neural Networks at Arbitrary Precision and Sparsity
Created by
Haebom
저자
Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard
개요
본 논문은 양자화 및 희소화의 불연속 연산으로 인한 역전파의 어려움, 특히 초저정밀도 및 희소 영역에서의 문제점을 해결하는 새로운 방법을 제시합니다. 기존의 Straight-Through Estimator (STE)는 양자화를 고려한 순전파와 양자화를 무시한 역전파 간의 불일치로 인해 학습 과정이 손상될 수 있다는 단점이 있습니다. 본 논문에서는 원리에 기반한 능선 회귀 목표 함수에서 유도된 잡음 제거 역양자화 변환을 도입하여 이 문제를 해결합니다. 이 변환은 명시적인 수정 그래디언트 경로를 생성하여 STE의 대체 그래디언트가 무시하는 양자화 오류를 전체 학습 과정에서 인식하고 이에 강인하게 만들어줍니다. 또한, 희소화를 무시할 수 없는 값을 0으로 매핑하는 특수한 양자화 형태로 보고 이 원리를 희소화에 확장합니다. 이 통합 프레임워크를 통해 기존 모델을 다양한 정밀도와 희소성 수준에서 안정적으로 학습시킬 수 있으며, 다른 방법이 실패하는 완전 이진(A1W1) 및 희소 서브-1-비트 네트워크의 안정적인 학습을 달성합니다. 이는 최첨단 결과를 제공하고 이론적으로 근거한 초고효율 신경망을 위한 경로를 제공합니다.