Bài báo này đề cập đến những thách thức trong việc cân bằng hiệu suất mô hình, độ phức tạp tính toán và hạn chế bộ nhớ khi triển khai mạng nơ-ron lượng tử (QNN) trên các thiết bị hạn chế tài nguyên (ví dụ: vi điều khiển). Tiny Machine Learning (TinyML) giải quyết những thách thức này bằng cách tích hợp những tiến bộ trong thuật toán học máy, tăng tốc phần cứng và tối ưu hóa phần mềm để thực thi hiệu quả mạng nơ-ron sâu trên các hệ thống nhúng. Bài báo này giới thiệu lượng tử hóa từ góc độ lấy phần cứng làm trọng tâm và xem xét một cách có hệ thống các kỹ thuật lượng tử hóa thiết yếu được sử dụng để tăng tốc các mô hình học sâu cho các ứng dụng nhúng, tập trung vào những đánh đổi quan trọng giữa hiệu suất mô hình và khả năng phần cứng. Hơn nữa, chúng tôi đánh giá các nền tảng phần mềm và phần cứng hiện có được thiết kế riêng để hỗ trợ thực thi QNN trên vi điều khiển, làm nổi bật những thách thức hiện tại và những hướng đi đầy hứa hẹn trong tương lai trong lĩnh vực triển khai QNN đang phát triển nhanh chóng.