Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DINO-R1: Thúc đẩy khả năng suy luận trong các mô hình Vision Foundation

Created by
  • Haebom

Tác giả

Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

Phác thảo

Bài báo này đề xuất DINO-R1, nỗ lực đầu tiên nhằm nâng cao khả năng suy luận theo ngữ cảnh trong các mô hình dựa trên thị giác (ví dụ: chuỗi DINO) bằng cách sử dụng học tăng cường. Trong khi các khuôn khổ tinh chỉnh dựa trên học tăng cường hiện có (ví dụ: GRPO) chủ yếu được áp dụng cho các mô hình ngôn ngữ, bài báo này trình bày Tối ưu hóa truy vấn tương đối nhóm (GRQO), một chiến lược học tăng cường mới được thiết kế riêng cho các mô hình biểu diễn dựa trên truy vấn. GRQO tính toán phần thưởng cấp độ truy vấn dựa trên chất lượng căn chỉnh chuẩn hóa nhóm và áp dụng chính quy hóa KL để giảm sự bất ổn định trong quá trình huấn luyện. Dựa trên Grounding-DINO, chúng tôi huấn luyện chuỗi mô hình DINO-R1, tích hợp bộ mã hóa nhắc nhở trực quan và cơ chế lựa chọn truy vấn được hướng dẫn trực quan, và đạt được hiệu suất vượt trội so với các mô hình dựa trên học có giám sát hiện có trên các tập dữ liệu COCO, LVIS và ODinW. Nó thể hiện hiệu suất khái quát hóa mạnh mẽ trong cả các tình huống nhắc nhở trực quan tập mở và tập đóng.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để cải thiện khả năng suy luận theo ngữ cảnh bằng cách áp dụng học tăng cường vào các mô hình Visual Basic.
Chúng tôi trình bày một chiến lược học tăng cường hiệu quả thông qua thuật toán GRQO chuyên biệt cho các mô hình biểu diễn dựa trên truy vấn.
Thể hiện hiệu suất tuyệt vời và khả năng khái quát trong các tình huống gợi ý trực quan tập hợp đóng và từ vựng mở.
Giảm thiểu hiệu quả sự mất ổn định trong quá trình đào tạo thông qua việc điều chỉnh KL.
Limitations:
Thiếu phân tích chi tiết về chi phí tính toán và thời gian đào tạo của phương pháp đề xuất.
Cần có thêm các thí nghiệm trên nhiều mô hình và tập dữ liệu nền tảng trực quan khác nhau.
Cần có thêm nghiên cứu về khả năng khái quát hóa của thuật toán GRQO và khả năng áp dụng của nó vào các loại nhiệm vụ suy luận khác.
👍