Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Khi Mô hình Ngôn ngữ Thị giác Lớn Gặp Hình ảnh Viễn thám Lớn: Cắt tỉa Mã thông báo Hướng dẫn Văn bản Thô sang Tinh
Created by
Haebom
Tác giả
Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
Phác thảo
Bài báo này trình bày một phương pháp mới để hiểu ngôn ngữ hình ảnh hiệu quả của các ảnh viễn thám lớn (RSI). Các mô hình ngôn ngữ hình ảnh quy mô lớn (LVLM) hiện có có hạn chế là chúng sử dụng các lưới được xác định trước bị hạn chế trong xử lý hình ảnh, dẫn đến mất thông tin khi xử lý RSI gigapixel. Để giải quyết vấn đề này, chúng tôi đề xuất một phương pháp cắt tỉa mã thông báo có hướng dẫn văn bản tích hợp một kim tự tháp hình ảnh động (DIP). Phương pháp này sử dụng khả năng định vị vùng nhận dạng văn bản thông qua một mô-đun tập trung vào vùng (RFM) để xác định các mã thông báo hình ảnh quan trọng và thực hiện lựa chọn và cắt tỉa mã thông báo hình ảnh từ các ô ảnh thô thành các ô ảnh tinh dựa trên đầu ra RFM, do đó giảm độ phức tạp tính toán mà không cần xử lý trực tiếp toàn bộ hình ảnh. Ngoài ra, để khắc phục những hạn chế của các chuẩn đánh giá LVLM hiện có, chúng tôi xây dựng một chuẩn LRS-VQA mới bao gồm 7.333 cặp QA trong tám loại với độ dài ảnh lên tới 27.328 pixel. Phương pháp đề xuất vượt trội hơn các chiến lược độ phân giải cao hiện có trên bốn tập dữ liệu sử dụng cùng một dữ liệu, và thể hiện hiệu quả cao hơn các phương pháp giảm mã thông báo hiện có trong cài đặt độ phân giải cao. Mã nguồn và tập dữ liệu có sẵn trên GitHub (https://github.com/VisionXLab/LRS-VQA) .
Takeaways, Limitations
•
Takeaways:
◦
Một phương pháp mới để hiểu ngôn ngữ hình ảnh hiệu quả của hình ảnh cảm biến từ xa khổng lồ được trình bày.
◦
Giảm độ phức tạp của tính toán và giảm thiểu mất thông tin thông qua kim tự tháp hình ảnh động (DIP) và cắt tỉa mã thông báo hướng dẫn văn bản.
◦
Chúng tôi xây dựng một chuẩn mực trả lời câu hỏi RSI có độ phân giải cao mới, LRS-VQA, khắc phục được những hạn chế của các chuẩn mực hiện có.
◦
Thể hiện hiệu suất và hiệu quả vượt trội so với các chiến lược có độ phân giải cao và phương pháp giảm mã thông báo hiện có.
•
Limitations:
◦
Cần phải xác nhận thêm về tính tổng quát và khả năng mở rộng của chuẩn mực LRS-VQA.
◦
Hiệu suất tổng quát của phương pháp đề xuất cần được đánh giá cho nhiều loại RSI khổng lồ khác nhau.