Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

StreetViewAI: Làm cho Street View dễ tiếp cận hơn bằng cách sử dụng AI đa phương thức nhận biết ngữ cảnh

Created by
  • Haebom

Tác giả

Jon E. Froehlich, Alexander Fiannaca, Nimer Jaber, Victor Tsaran, Shaun Kane

Phác thảo

StreetViewAI là công cụ xem phố đầu tiên có thể truy cập dành cho người khiếm thị. Các công cụ lập bản đồ cảnh quan đường phố tương tác như Google Street View (GSV) và Meta Mapillary cho phép người dùng khám phá và trải nghiệm môi trường thực tế ảo thông qua hình ảnh 360 độ sống động, nhưng về cơ bản, những công cụ này không thể truy cập được đối với người khiếm thị. StreetViewAI giải quyết vấn đề này bằng cách kết hợp AI đa phương thức nhận biết ngữ cảnh, điều khiển dẫn đường có thể truy cập và giọng nói tương tác. Với StreetViewAI, người khiếm thị có thể xem lại các điểm đến, khám phá thế giới mở và du lịch ảo trên bộ sưu tập phân tán hơn 220 tỷ hình ảnh và hơn 100 quốc gia của GSV. Thông qua quy trình thiết kế lặp đi lặp lại với một nhóm có thị lực hỗn hợp và đánh giá với 11 người dùng khiếm thị, chúng tôi đã chứng minh giá trị của chế độ xem phố có thể truy cập trong việc hỗ trợ khảo sát điểm quan tâm (POI) và lập kế hoạch tuyến đường từ xa. Cuối cùng, chúng tôi liệt kê các hướng dẫn chính cho nghiên cứu trong tương lai.

Takeaways, Limitations

Takeaways: Minh chứng tiềm năng của một công cụ Street View dễ tiếp cận dành cho người khiếm thị. Minh chứng hiệu quả của nó trong việc hỗ trợ khảo sát POI và lập kế hoạch tuyến đường từ xa. Tích hợp hiệu quả AI đa phương thức, điều khiển dẫn đường dễ tiếp cận và giọng nói đàm thoại.
Limitations: Số lượng người dùng được đánh giá còn hạn chế (11). Cần nghiên cứu thêm với những người dùng có khiếm khuyết thị lực và trình độ kỹ năng khác nhau. Cần tiếp tục đánh giá khả năng sử dụng và hiệu quả trong quá trình sử dụng lâu dài. Cần nghiên cứu thêm để xác định khả năng khái quát hóa trong nhiều môi trường và tình huống khác nhau.
👍