Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SIFThinker: Tập trung hình ảnh có nhận thức không gian cho tư duy thị giác

Created by
  • Haebom

Tác giả

Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

Phác thảo

Để Giải quyết những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM), vốn vẫn đang gặp khó khăn với các tác vụ thị giác phức tạp (ví dụ: hiểu biết không gian và nhận thức chi tiết), bài báo này trình bày SIFThinker, một khuôn khổ "tư duy bằng hình ảnh" có nhận thức không gian, mô phỏng nhận thức thị giác của con người. SIFThinker giao thoa các hộp giới hạn được tăng cường độ sâu với ngôn ngữ tự nhiên để cho phép điều chỉnh sự chú ý và tập trung vào các vùng hình ảnh. Sử dụng chiến lược suy luận mở rộng ngược-tới-trước, chúng tôi xây dựng một quy trình suy nghĩ từ hình ảnh sang văn bản để giám sát ở cấp độ quy trình, sau đó chúng tôi xây dựng tập dữ liệu SIF-50K. Hơn nữa, chúng tôi đề xuất GRPO-SIF, một mô hình học tăng cường tích hợp bằng chứng thị giác được tăng cường độ sâu, để huấn luyện các mô hình tự động điều chỉnh và tập trung vào các vùng liên quan đến dấu nhắc. Kết quả thực nghiệm chứng minh rằng SIFThinker vượt trội hơn các phương pháp tiên tiến về hiểu biết không gian và nhận thức thị giác chi tiết trong khi vẫn duy trì hiệu suất chung.

Takeaways, Limitations

Takeaways:
Thể hiện hiệu quả của cơ chế điều chỉnh sự chú ý và tập trung vùng hình ảnh thông qua giao điểm giữa các hộp giới hạn tăng cường độ sâu và ngôn ngữ tự nhiên.
Chúng tôi trình bày hiệu quả của việc giám sát ở cấp độ quy trình và xây dựng tập dữ liệu SIF-50K bằng cách sử dụng chiến lược suy luận ngược-mở rộng-tiến.
Chứng minh tính ưu việt của quy trình suy luận tích hợp dựa trên học tăng cường thông qua GRPO-SIF.
Sự kết hợp thành công giữa khả năng hiểu biết không gian được cải thiện và hiệu suất nhận thức thị giác chi tiết, đồng thời vẫn duy trì hiệu suất chung.
Limitations:
Cần phải xem xét thêm về quy mô và tính đa dạng của tập dữ liệu SIF-50K.
Cần phân tích chi phí tính toán và hiệu quả học tập của GRPO-SIF.
Cần đánh giá thêm hiệu suất tổng quát trên các loại nhiệm vụ thị giác khác nhau.
Cần nghiên cứu thêm về khả năng áp dụng và khả năng khái quát hóa cho các kiến trúc MLLM khác.
👍