Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mini-o3: Mở rộng các mẫu suy luận và lượt tương tác cho tìm kiếm trực quan

Created by
  • Haebom

Tác giả

Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao

Phác thảo

Bài báo này đề cập đến những hạn chế của việc giải quyết vấn đề trực quan bằng các công cụ dựa trên hình ảnh và học tăng cường trong các mô hình đa phương thức quy mô lớn. Các phương pháp nguồn mở hiện có không phù hợp với các nhiệm vụ đầy thách thức đòi hỏi phải khám phá thử và sai do các mẫu suy luận đơn điệu và số lượt tương tác hạn chế. Để giải quyết vấn đề này, nghiên cứu này trình bày hệ thống Mini-o3, mở rộng tương tác dựa trên công cụ. Mini-o3 thực hiện suy luận sâu, nhiều lượt qua hàng chục giai đoạn, đạt được hiệu suất tiên tiến trên các nhiệm vụ tìm kiếm trực quan đầy thách thức. Việc tái tạo hành vi theo phong cách OpenAI o3 bao gồm ba thành phần chính: Đầu tiên, chúng tôi xây dựng Bộ dữ liệu thăm dò trực quan, một tập hợp hàng nghìn vấn đề tìm kiếm trực quan đầy thách thức được thiết kế cho suy luận khám phá. Thứ hai, chúng tôi phát triển một đường ống thu thập dữ liệu lặp lại để có được các đường dẫn khởi động lạnh thể hiện các mẫu suy luận đa dạng, bao gồm khám phá theo chiều sâu, thử và sai và duy trì mục tiêu. Thứ ba, chúng tôi đề xuất một chiến lược che giấu lượt quá mức giúp ngăn ngừa hình phạt cho các phản hồi lượt quá mức (những phản hồi đạt đến số lượt tối đa) trong quá trình học tăng cường, do đó cân bằng hiệu quả thời gian huấn luyện và khả năng mở rộng thời gian kiểm tra. Mặc dù được huấn luyện với giới hạn trên chỉ sáu lượt tương tác, mô hình vẫn tự nhiên tạo ra các đường dẫn có thể mở rộng đến hàng chục lượt trong quá trình suy luận, và độ chính xác được cải thiện khi số lượt tăng lên. Các thí nghiệm mở rộng chứng minh rằng Mini-o3 giải quyết hiệu quả các bài toán tìm kiếm trực quan đầy thách thức bằng cách tạo ra các mẫu suy luận phong phú và các đường dẫn tư duy sâu.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu Mini-o3, một hệ thống mới đạt hiệu suất tiên tiến nhất trong các tác vụ tìm kiếm trực quan đòi hỏi khắt khe.
Suy luận sâu sắc, nhiều vòng có khả năng thể hiện nhiều kiểu suy luận khác nhau (tìm kiếm theo chiều sâu, thử và sai, duy trì mục tiêu, v.v.).
Mặc dù số lượt đào tạo bị hạn chế, số lượt có thể được mở rộng và độ chính xác được cải thiện trong quá trình suy luận.
Giới thiệu bộ dữ liệu mới để suy luận khám phá: Bộ dữ liệu thăm dò trực quan.
Cải thiện hiệu quả và khả năng mở rộng của học tăng cường thông qua chiến lược che dấu lật ngược.
Limitations:
Cần phải xác nhận thêm về quy mô và hiệu suất tổng quát của Bộ dữ liệu thăm dò thị giác.
Hiệu suất của Mini-o3 có thể bị ảnh hưởng bởi một số loại vấn đề tìm kiếm trực quan nhất định.
Cần phải đánh giá hiệu suất tổng quát cho các loại vấn đề thị giác khác hoặc trên nhiều phương thức khác nhau.
Cần có thêm nghiên cứu về khả năng tối ưu hóa và tổng quát hóa của chiến lược che khuất lượt quay quá mức.
👍