임베디드 하드웨어에서 연속 제어 강화 학습 정책을 배포하려면 엄격한 지연 시간 및 전력 예산을 충족해야 합니다. 이 연구에서는 정수 추론을 위한 정책의 양자화 인식 훈련(QAT)을 연구하고, 낮은 비트 정책을 자동으로 선택하여 Artix-7 FPGA로 합성하는 학습-하드웨어 파이프라인을 제시합니다. 다섯 가지 MuJoCo 작업을 통해, 입력 정밀도를 신중하게 선택하는 경우 FP32 정책과 경쟁하는 정책 네트워크를 얻었으며, 가중치당 3비트 또는 2비트, 그리고 내부 활성화 값당 2비트가 필요합니다. 목표 하드웨어에서 선택된 정책은 마이크로초 단위의 추론 지연 시간을 달성하고 액션당 마이크로줄의 전력을 소비하며, 양자화된 레퍼런스와 비교하여 유리합니다. 마지막으로, 양자화된 정책은 부동 소수점 기준선에 비해 입력 잡음 강인성이 증가하는 것을 관찰했습니다.