Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tư duy đa bước đa miền: Nhận dạng biển báo giao thông chi tiết không cần chỉnh sửa trong thực tế

Created by
  • Haebom

Tác giả

Yaozong Gan, Guan Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama

Phác thảo

Trong bài báo này, chúng tôi đề xuất một khuôn khổ suy luận đa cấp liên miền (CdMT) để cải thiện hiệu suất nhận dạng biển báo giao thông (TSR) chi tiết không cần chỉnh sửa (zero-shot) trong môi trường hoang dã. Các phương pháp hiện có gặp khó khăn đặc biệt trong các tình huống TSR xuyên quốc gia do sự khác biệt về biển báo giao thông giữa các quốc gia, và CdMT tận dụng khả năng suy luận đa cấp của các mô hình đa phương thức quy mô lớn (LMM) để giải quyết thách thức này. Chúng tôi thiết kế một quy trình suy luận đa cấp cho LMM bằng cách đưa vào ngữ cảnh, đặc điểm và các giải thích phân biệt. Các giải thích ngữ cảnh nâng cao, thông qua tối ưu hóa dấu nhắc trọng tâm, cho phép định vị chính xác các biển báo trong hình ảnh đường phức tạp và lọc ra các phản hồi không liên quan. Các giải thích đặc điểm bắt nguồn từ việc học ngữ cảnh với các biển báo giao thông mẫu thu hẹp khoảng cách giữa các miền và cải thiện TSR chi tiết, trong khi các giải thích phân biệt nâng cao khả năng suy luận đa phương thức của LMM bằng cách phân biệt những khác biệt nhỏ giữa các biển báo tương tự. CdMT độc lập với dữ liệu đào tạo và chỉ yêu cầu các hướng dẫn đơn giản và thống nhất để đạt được TSR xuyên quốc gia. Thông qua các thử nghiệm mở rộng trên ba tập dữ liệu chuẩn và hai tập dữ liệu thực tế, chúng tôi chứng minh rằng khuôn khổ CdMT được đề xuất vượt trội hơn các phương pháp tiên tiến nhất trên cả năm tập dữ liệu. (GTSRB 0,93, BTSD 0,89, TT-100K 0,97, Sapporo 0,89, Yokohama 0,85)

Takeaways, Limitations

Takeaways:
Trình bày một giải pháp hiệu quả cho vấn đề nhận dạng biển báo giao thông hạt mịn không cần bắn
Một cách tiếp cận mới để khắc phục những khó khăn trong việc nhận dạng biển báo giao thông xuyên biên giới
Tận dụng hiệu quả khả năng suy luận đa cấp của các mô hình đa phương thức quy mô lớn
Một khuôn khổ dễ áp dụng và ít phụ thuộc vào dữ liệu đào tạo.
Xác minh hiệu suất tuyệt vời trên nhiều tập dữ liệu khác nhau
Limitations:
Vì nó phụ thuộc rất nhiều vào LMM nên hiệu suất của nó có thể bị ảnh hưởng bởi hiệu suất của LMM.
Thiếu xác thực hiệu suất cho nhiều điều kiện khí hậu hoặc tình huống khắc nghiệt (ánh nắng mạnh, mưa, tuyết, v.v.).
Có khả năng là nó không phản ánh hoàn toàn sự phức tạp của môi trường đường thực tế.
Có sự phụ thuộc vào kỹ thuật nhanh chóng và thiết kế nhanh chóng tối ưu có tác động đáng kể đến hiệu suất.
👍