Bài báo này đề cập đến những hạn chế của việc giải quyết vấn đề trực quan bằng các công cụ dựa trên hình ảnh và học tăng cường trong các mô hình đa phương thức quy mô lớn. Các phương pháp nguồn mở hiện có không phù hợp với các nhiệm vụ đầy thách thức đòi hỏi phải khám phá thử và sai do các mẫu suy luận đơn điệu và số lượt tương tác hạn chế. Để giải quyết vấn đề này, nghiên cứu này trình bày hệ thống Mini-o3, mở rộng tương tác dựa trên công cụ. Mini-o3 thực hiện suy luận sâu, nhiều lượt qua hàng chục giai đoạn, đạt được hiệu suất tiên tiến trên các nhiệm vụ tìm kiếm trực quan đầy thách thức. Việc tái tạo hành vi theo phong cách OpenAI o3 bao gồm ba thành phần chính: Đầu tiên, chúng tôi xây dựng Bộ dữ liệu thăm dò trực quan, một tập hợp hàng nghìn vấn đề tìm kiếm trực quan đầy thách thức được thiết kế cho suy luận khám phá. Thứ hai, chúng tôi phát triển một đường ống thu thập dữ liệu lặp lại để có được các đường dẫn khởi động lạnh thể hiện các mẫu suy luận đa dạng, bao gồm khám phá theo chiều sâu, thử và sai và duy trì mục tiêu. Thứ ba, chúng tôi đề xuất một chiến lược che giấu lượt quá mức giúp ngăn ngừa hình phạt cho các phản hồi lượt quá mức (những phản hồi đạt đến số lượt tối đa) trong quá trình học tăng cường, do đó cân bằng hiệu quả thời gian huấn luyện và khả năng mở rộng thời gian kiểm tra. Mặc dù được huấn luyện với giới hạn trên chỉ sáu lượt tương tác, mô hình vẫn tự nhiên tạo ra các đường dẫn có thể mở rộng đến hàng chục lượt trong quá trình suy luận, và độ chính xác được cải thiện khi số lượt tăng lên. Các thí nghiệm mở rộng chứng minh rằng Mini-o3 giải quyết hiệu quả các bài toán tìm kiếm trực quan đầy thách thức bằng cách tạo ra các mẫu suy luận phong phú và các đường dẫn tư duy sâu.