Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tăng cường việc tạo biểu đồ thành mã trong MLLM thông qua tinh chỉnh theo hướng dẫn ưu tiên kép

Created by
  • Haebom

Tác giả

Zhihan Zhang, Yixin Cao, Lizi Liao

Phác thảo

Bài báo này tập trung vào nhiệm vụ chuyển đổi hình ảnh biểu đồ thành các tập lệnh vẽ đồ thị có thể thực thi, cụ thể là tạo biểu đồ thành mã. Nhiệm vụ này vốn bị hạn chế về mặt bản chất, đòi hỏi một mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) để thực hiện phân tích cú pháp trực quan chi tiết, tổng hợp mã chính xác và suy luận liên phương thức mạnh mẽ. Nhiều triển khai mã hợp lệ có thể tạo ra cùng một biểu đồ trực quan, và quá trình đánh giá phải xem xét cả tính chính xác của mã và độ trung thực trực quan trên nhiều chiều. Điều này gây khó khăn cho việc học các ánh xạ chính xác và có thể khái quát hóa bằng cách sử dụng tinh chỉnh có giám sát tiêu chuẩn. Để giải quyết thách thức này, bài báo này đề xuất một khuôn khổ cải tiến hướng dẫn sở thích kép kết hợp cơ chế khen thưởng hai phương thức dựa trên phản hồi với học tập sở thích lặp lại. Phương pháp của chúng tôi tạo ra hiệu quả các cặp sở thích chất lượng cao, nhận biết khía cạnh bằng cách giới thiệu một chiến lược tạo biến thể có cấu trúc và một mô hình khen thưởng trực quan, do đó tăng khả năng mở rộng của việc thu thập sở thích và làm cho việc giám sát hướng đến mục tiêu hơn. Các sở thích này sau đó được sử dụng trong bối cảnh học tăng cường ngoại tuyến để tối ưu hóa mô hình nhằm cải thiện độ trung thực đa chiều. Kết quả thử nghiệm chứng minh rằng khuôn khổ đề xuất cải thiện đáng kể hiệu suất của MLLM mã nguồn mở, đa năng, tạo ra mã vẽ đồ thị chất lượng cao, sánh ngang với các mô hình chuyên nghiệp tập trung vào biểu đồ và thậm chí cả một số hệ thống độc quyền. Mã và tập dữ liệu được công khai tại https://github.com/Zhihan72/Chart2Code .

Takeaways, Limitations

Takeaways:
Chúng tôi đã cải thiện đáng kể hiệu suất tạo biểu đồ thành mã của MLLM mã nguồn mở, đa năng thông qua khuôn khổ cải tiến hướng dẫn ưu tiên kép của mình.
Chúng tôi trình bày một chiến lược để tạo ra các cặp sở thích có nhận thức về khía cạnh chất lượng cao một cách hiệu quả, do đó tăng khả năng mở rộng của bộ sưu tập sở thích.
Chúng tôi trình bày một thiết lập học tăng cường ngoại tuyến giúp tối ưu hóa các mô hình để cải thiện độ trung thực đa chiều.
Chất lượng của mã được tạo ra đã được cải thiện đến mức có thể cạnh tranh với các mô hình biểu đồ chuyên nghiệp và một số hệ thống độc quyền.
Chúng tôi đã công khai mã và tập dữ liệu của mình để tăng khả năng tái tạo nghiên cứu.
Limitations:
Hiệu suất của khuôn khổ đề xuất có thể phụ thuộc vào MLLM và tập dữ liệu được sử dụng.
Hiệu suất tổng quát cho các biểu đồ phức tạp hoặc có hình dạng đặc biệt cần được nghiên cứu thêm.
Có thể cần phải phát triển và cải thiện các chỉ số đánh giá xem xét cả độ trung thực về mặt hình ảnh và tính chính xác của mã.
Có thể cần phải mở rộng hỗ trợ cho các loại thư viện vẽ đồ thị khác nhau.
👍