Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tăng tốc AI cục bộ trên GPU tiêu dùng: Chiến lược động nhận thức phần cứng cho YOLOv10

Created by
  • Haebom

Tác giả

Mahmudul Hồi giáo Masum, Miad Hồi giáo, Arif I. Sarwat

Phác thảo

Bài báo này tập trung vào việc thu hẹp khoảng cách giữa hiệu suất chuẩn và tính khả thi thực tế của các bộ phát hiện đối tượng trên phần cứng dành cho người tiêu dùng. Trong khi các mô hình như YOLOv10 đạt được tốc độ thời gian thực, các số liệu hiệu suất này thường đạt được trên các GPU hiệu suất cao dành cho máy tính để bàn. Trên các hệ thống hạn chế về tài nguyên như GPU RTX 4060, chúng tôi chứng minh rằng các nút thắt ở cấp độ hệ thống, chứ không phải tốc độ tính toán, là nguyên nhân chính gây ra sự suy giảm hiệu suất. Để giải quyết vấn đề này, chúng tôi trình bày một thuật toán suy luận thích ứng hai lần có thể được áp dụng mà không cần thay đổi kiến ​​trúc mô hình. Thuật toán này tăng tốc bằng cách tận dụng một lần xử lý nhanh có độ phân giải thấp và khi cần thiết, một lần xử lý có độ phân giải cao. Chúng tôi đạt được tốc độ tăng 1,85 lần và mất mAP 5,51% so với đường cơ sở thoát sớm của PyTorch trên tập dữ liệu COCO gồm 5.000 hình ảnh. Thay vì chỉ dựa vào tối ưu hóa mô hình thuần túy, chúng tôi trình bày một phương pháp thực tế và có thể tái tạo để tối đa hóa thông lượng thông qua chiến lược suy luận nhận biết phần cứng.

Takeaways, Limitations

Takeaways:
Trình bày một cách tiếp cận thực tế để cải thiện hiệu suất phát hiện đối tượng theo thời gian thực trên phần cứng dành cho người tiêu dùng.
Bằng chứng về hiệu quả của thuật toán suy luận thích ứng hai lần có thể áp dụng mà không cần thay đổi cấu trúc mô hình.
Nhấn mạnh tầm quan trọng của các chiến lược suy luận nhận biết phần cứng có tính đến các điểm nghẽn về phần cứng.
Trình bày các tiêu chí để lựa chọn chiến lược tối ưu thông qua phân tích so sánh các chiến lược định tuyến thích ứng thoát sớm và giải quyết.
Limitations:
Cần xác thực thêm khả năng khái quát hóa bằng cách sử dụng tập dữ liệu COCO với 5.000 hình ảnh.
Những kết quả này áp dụng cho một GPU cụ thể (RTX 4060) và hiệu suất trên các môi trường phần cứng khác cần được nghiên cứu thêm.
Độ Mất mAP là 5,51%, dẫn đến độ chính xác giảm đôi chút. Cần có những cải tiến hơn nữa để cân bằng giữa độ chính xác và tốc độ.
Phạm vi ứng dụng của thuật toán bị giới hạn trong việc phát hiện đối tượng, do đó cần phải xem xét khả năng tổng quát hóa của nó đối với các mô hình AI khác.
👍