Sign In

Mixed Precision Training of Neural ODEs

Created by
  • Haebom
Category
Empty

저자

Elena Celledoni, Brynjulf Owren, Lars Ruthotto, Tianjiao Nicole Yang

개요

딥러닝 모델의 계산 비용 절감을 위해 저정밀도 연산을 활용하는 것이 일반화되었지만, 무분별한 저정밀도 연산은 반올림 오류 및 불안정성을 야기할 수 있다. 본 논문은 Neural ODE와 같은 연속 시간 아키텍처의 학습을 위한 혼합 정밀도 훈련 프레임워크를 제시한다. 명시적 ODE 솔버와 맞춤형 역전파 방식을 결합하여, 속도 계산과 중간 상태 저장을 위해 저정밀도 연산을 사용하고, 사용자 정의 동적 부가 스케일링과 고정밀도 솔루션 및 기울기 누적을 통해 안정성을 확보한다. 이 프레임워크는 반복적인 네트워크 평가의 계산 비용과 시간 단계 또는 레이어 수에 따른 메모리 요구 사항 증가라는 Neural ODE 훈련의 두 가지 주요 과제를 해결한다. 오픈소스 PyTorch 패키지 rampde를 통해 이미지 분류 및 생성 모델의 Neural ODE 응용 프로그램에서 약 50%의 메모리 감소와 최대 2배의 속도 향상을 이루면서 단정밀도 훈련과 유사한 정확도를 달성했다.

시사점, 한계점

시사점:
Neural ODE 훈련에 혼합 정밀도 훈련 프레임워크를 적용하여 계산 효율성을 높임
맞춤형 동적 부가 스케일링 및 고정밀도 솔루션/기울기 누적을 통해 안정성을 확보
오픈 소스 PyTorch 패키지 rampde를 제공하여 손쉬운 적용 가능성을 제시
이미지 분류 및 생성 모델에서 상당한 메모리 감소 및 속도 향상 달성
한계점:
본 논문에서 제시된 프레임워크의 일반화 능력은 더 다양한 문제에 대한 실험을 통해 검증되어야 함
단정밀도 훈련과의 정확도 비교에 대한 추가적인 분석이 필요할 수 있음
👍