[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

VisionThink: Mô hình ngôn ngữ thị giác thông minh và hiệu quả thông qua học tăng cường

Created by
  • Haebom

Tác giả

Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia

Phác thảo

Trong bài báo này, chúng tôi đề xuất VisionThink, một phương pháp mới để cải thiện hiệu quả của các mô hình ngôn ngữ thị giác (VLM) bằng cách giảm số lượng mã thông báo hình ảnh. Các VLM hiện có sử dụng nhiều mã thông báo hình ảnh dài hơn nhiều so với mã thông báo văn bản, nhưng hầu hết các tác vụ thực tế không yêu cầu số lượng mã thông báo lớn như vậy. VisionThink bắt đầu bằng cách giảm mẫu hình ảnh và đánh giá xem nó có đủ để giải quyết vấn đề hay không. Nếu không, nó sẽ đưa ra một mã thông báo đặc biệt yêu cầu hình ảnh có độ phân giải cao. Sử dụng học tăng cường và chiến lược LLM-as-Judge, nó được áp dụng cho các tác vụ VQA chung và đạt được tỷ lệ thay đổi kích thước hình ảnh ổn định và hợp lý thông qua các hàm thưởng và cơ chế phạt. Nó cho thấy khả năng hiểu thị giác chi tiết trong các tác vụ liên quan đến OCR và giảm đáng kể số lượng mã thông báo hình ảnh trong các tác vụ đơn giản.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng hiệu quả của VLM có thể được cải thiện đáng kể bằng cách điều chỉnh động số lượng mã thông báo hình ảnh.
Phương pháp này hiệu quả và linh hoạt hơn so với các phương pháp nén mã thông báo cố định hiện có.
Đã áP dụng thành công vào các nhiệm vụ VQA chung bằng cách tận dụng phương pháp học tăng cường và chiến lược LLM-as-Judge.
Nó hoạt động tốt trong các tác vụ liên quan đến OCR và giảm đáng kể số lượng mã thông báo trong các tác vụ đơn giản.
Khả năng tái tạo được đảm bảo thông qua mã mở.
Limitations:
Có thể cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Hiệu suất có thể bị giảm sút đối với một số loại tác vụ nhất định (ví dụ: một số tác vụ liên quan đến OCR).
Có thể còn thiếu mô tả chi tiết về quá trình đào tạo trong học tăng cường.
👍