Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tăng cường VLM để sử dụng các công cụ cho lý luận trực quan chi tiết trong điều kiện hạn chế về tài nguyên

Created by
  • Haebom

Tác giả

Sunil Kumar, Bowen Zhao, Leo Dirac, Paulina Varshavskaya

Phác thảo

Bài báo này trình bày một phương pháp cải thiện khả năng suy luận trực quan chi tiết của các mô hình ngôn ngữ thị giác (VLM) ngay cả trong điều kiện tính toán hạn chế. Lấy cảm hứng từ Deepseek-r1, chúng tôi huấn luyện các mô hình nhỏ bằng cách sử dụng Tối ưu hóa Chính sách Tương đối Nhóm (GRPO) và tận dụng các công cụ bên ngoài như Zoom. Chúng tôi đạt được lợi ích lớn nhất bằng cách kết hợp huấn luyện GRPO, cấu trúc phần thưởng đơn giản, giao diện gọi công cụ được sắp xếp hợp lý, phân bổ mã thông báo bổ sung cho kết quả gọi công cụ và kết hợp dữ liệu huấn luyện thể hiện quá mức các ví dụ khó về mặt thị giác. Do đó, chúng tôi đạt được hiệu suất được cải thiện trong một số tác vụ trả lời câu hỏi trực quan (VQA) so với các mô hình cơ sở có kích thước tương tự, nhờ thông tin trực quan chi tiết được thu thập từ các công cụ bên ngoài.

Takeaways, Limitations

_____T28747____-:
Đề Xuất khả năng cải thiện khả năng suy luận trực quan của VLM trong điều kiện nguồn lực tính toán hạn chế.
Trình bày các chiến lược học tập hiệu quả thông qua việc sử dụng GRPO và các công cụ bên ngoài.
Bằng chứng về tính hữu ích của các tập dữ liệu thể hiện quá mức các ví dụ khó về mặt hình ảnh.
Cải thiện hiệu suất VQA bằng cách thu thập thông tin hình ảnh chi tiết bằng các công cụ bên ngoài.
Limitations:
Chỉ có những cải tiến về hiệu suất cho các nhiệm vụ VQA cụ thể được trình bày và khả năng khái quát hóa để cải tiến hiệu suất cho VLM chung có thể bị hạn chế.
Vì các công cụ bên ngoài được sử dụng chỉ giới hạn ở chức năng phóng to nên cần nghiên cứu thêm về việc sử dụng nhiều công cụ bên ngoài khác.
Hiệu quả của phương pháp đề xuất có thể phụ thuộc vào các tập dữ liệu và cài đặt cụ thể.
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa cho các kiến trúc VLM khác hoặc các nhiệm vụ suy luận trực quan phức tạp hơn.
👍