Bài báo này đề xuất DINO-R1, nỗ lực đầu tiên nhằm nâng cao khả năng suy luận theo ngữ cảnh trong các mô hình dựa trên thị giác (ví dụ: chuỗi DINO) bằng cách sử dụng học tăng cường. Trong khi các khuôn khổ tinh chỉnh dựa trên học tăng cường hiện có (ví dụ: GRPO) chủ yếu được áp dụng cho các mô hình ngôn ngữ, bài báo này trình bày Tối ưu hóa truy vấn tương đối nhóm (GRQO), một chiến lược học tăng cường mới được thiết kế riêng cho các mô hình biểu diễn dựa trên truy vấn. GRQO tính toán phần thưởng cấp độ truy vấn dựa trên chất lượng căn chỉnh chuẩn hóa nhóm và áp dụng chính quy hóa KL để giảm sự bất ổn định trong quá trình huấn luyện. Dựa trên Grounding-DINO, chúng tôi huấn luyện chuỗi mô hình DINO-R1, tích hợp bộ mã hóa nhắc nhở trực quan và cơ chế lựa chọn truy vấn được hướng dẫn trực quan, và đạt được hiệu suất vượt trội so với các mô hình dựa trên học có giám sát hiện có trên các tập dữ liệu COCO, LVIS và ODinW. Nó thể hiện hiệu suất khái quát hóa mạnh mẽ trong cả các tình huống nhắc nhở trực quan tập mở và tập đóng.