Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Qua Kính Lúp: Phóng đại Nhận thức Thích ứng để Giải mã VLM Không gây Ảo giác

Created by
  • Haebom

Tác giả

Shunqi Mao, Chaoyi Zhang, Weidong Cai

Phác thảo

Các mô hình ngôn ngữ thị giác (VLM) hiện có bị ảnh hưởng bởi ảo giác thị giác, một hiện tượng trong đó các phản hồi được tạo ra chứa các thông tin không chính xác, không liên quan đến đầu vào thị giác. Các nỗ lực giải quyết vấn đề này mà không tinh chỉnh mô hình chủ yếu làm giảm ảo giác bằng cách giảm độ lệch ngôn ngữ về độ tương phản hoặc khuếch đại trọng số của các nhúng thị giác trong quá trình giải mã. Tuy nhiên, các phương pháp này bị hạn chế về khả năng nắm bắt các chi tiết thị giác tinh tế. Trong nghiên cứu này, chúng tôi đề xuất Perception Magnifier (PM), một phương pháp giải mã thị giác mới, cô lập lặp đi lặp lại các mã thông báo thị giác có liên quan và phóng đại các vùng này dựa trên các cơ chế chú ý, từ đó hướng dẫn mô hình tập trung vào các chi tiết thị giác tinh tế trong quá trình giải mã. PM tăng cường khả năng giám sát đầu vào thị giác của VLM bằng cách phóng đại các vùng quan trọng, đồng thời bảo toàn thông tin về cấu trúc và ngữ cảnh ở mỗi bước giải mã, cho phép nó tạo ra các phản hồi chính xác và trung thực hơn. Các kết quả thử nghiệm mở rộng chứng minh rằng PM không chỉ làm giảm ảo giác mà còn tăng cường khả năng sản xuất ngôn ngữ, đồng thời duy trì khả năng suy luận mạnh mẽ.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp giải mã hình ảnh (PM) mới có hiệu quả làm giảm các vấn đề ảo giác thị giác bằng cách ghi lại các chi tiết hình ảnh tinh tế.
Đã Chứng minh được hiệu quả giảm ảo giác vượt trội và khả năng tạo ngôn ngữ được cải thiện so với các phương pháp hiện có.
Đã Tăng độ chính xác của thị giác một cách thành công trong khi vẫn duy trì khả năng suy luận mạnh mẽ.
Limitations:
Khả năng cải thiện hiệu suất của PM có thể bị giới hạn ở các tập dữ liệu hoặc kiến trúc mô hình cụ thể.
Cần có thêm nghiên cứu về khả năng khái quát hóa đối với các môi trường thị giác phức tạp và đa dạng hơn.
Khả năng tăng chi phí tính toán.
👍