Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Quantized Continuous Controllers for Integer Hardware

Created by
  • Haebom
Category
Empty

저자

Fabian Kresse, Christoph H. Lampert

개요

임베디드 하드웨어에서 연속 제어 강화 학습 정책을 배포하려면 엄격한 지연 시간 및 전력 예산을 충족해야 합니다. 이 연구에서는 정수 추론을 위한 정책의 양자화 인식 훈련(QAT)을 연구하고, 낮은 비트 정책을 자동으로 선택하여 Artix-7 FPGA로 합성하는 학습-하드웨어 파이프라인을 제시합니다. 다섯 가지 MuJoCo 작업을 통해, 입력 정밀도를 신중하게 선택하는 경우 FP32 정책과 경쟁하는 정책 네트워크를 얻었으며, 가중치당 3비트 또는 2비트, 그리고 내부 활성화 값당 2비트가 필요합니다. 목표 하드웨어에서 선택된 정책은 마이크로초 단위의 추론 지연 시간을 달성하고 액션당 마이크로줄의 전력을 소비하며, 양자화된 레퍼런스와 비교하여 유리합니다. 마지막으로, 양자화된 정책은 부동 소수점 기준선에 비해 입력 잡음 강인성이 증가하는 것을 관찰했습니다.

시사점, 한계점

소형 FPGA에서 연속 제어 강화 학습 정책을 실행하기 위한 효율적인 방법 제시
FP32 정책과 경쟁하는 저비트(3비트 또는 2비트) 정책 개발
마이크로초 단위의 추론 지연 시간 및 액션당 마이크로줄의 전력 소비 달성
양자화된 정책의 입력 잡음 강인성 증가 관찰
논문에서 다룬 작업이 MuJoCo 작업 5개로 제한됨
특정 FPGA(Artix-7)에 대한 하드웨어 합성 및 성능 측정
입력 정밀도 선택의 중요성 강조
👍