Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ChartM$^3$: So sánh hiệu chỉnh biểu đồ với hướng dẫn đa phương thức

Created by
  • Haebom

Tác giả

Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang, Qin Jin

Phác thảo

Bài báo này trình bày một mô hình chỉnh sửa biểu đồ đa phương thức kết hợp ngôn ngữ tự nhiên và các chỉ báo trực quan. Để giải quyết sự mơ hồ của các phương pháp chỉnh sửa biểu đồ dựa trên ngôn ngữ tự nhiên hiện có, chúng tôi đề xuất một phương pháp thể hiện ý định của người dùng bằng ngôn ngữ tự nhiên và các chỉ báo trực quan, làm nổi bật rõ ràng các yếu tố cần chỉnh sửa. Để hỗ trợ điều này, chúng tôi giới thiệu Chart$\text{M}^3$, một chuẩn mực chỉnh sửa biểu đồ đa phương thức mới với độ phức tạp đa cấp và đánh giá đa diện. Chart$\text{M}^3$ bao gồm 1.000 mẫu với bốn mức độ khó chỉnh sửa, mỗi mức độ bao gồm ba yếu tố: biểu đồ, mã và các chỉ báo đa phương thức. Chúng tôi cung cấp các số liệu đánh giá cả hình thức trực quan và độ chính xác của mã, cho phép chúng tôi đánh giá toàn diện các mô hình chỉnh sửa biểu đồ. Thông qua Chart$\text{M}^3$, bài báo này chứng minh những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) hiện tại, đặc biệt là khả năng diễn giải và áp dụng các chỉ báo trực quan. Để giải quyết những hạn chế này, chúng tôi xây dựng Chart$\text{M}^3$-Train, một tập dữ liệu huấn luyện quy mô lớn bao gồm 24.000 mẫu chỉnh sửa biểu đồ đa phương thức. Việc tinh chỉnh MLLM trên tập dữ liệu này giúp cải thiện đáng kể hiệu suất, chứng minh tầm quan trọng của học có giám sát đa phương thức. Tập dữ liệu, mã và các công cụ đánh giá có sẵn trên GitHub.

Takeaways, Limitations

Takeaways:
Giới thiệu mô hình mới để chỉnh sửa biểu đồ bằng cách sử dụng đầu vào đa phương thức.
Một chuẩn mực mới, Chart$\text{M}^3$, được cung cấp, có tính đến độ phức tạp nhiều lớp và đánh giá nhiều mặt.
Tiết lộ những hạn chế về khả năng diễn giải và áp dụng các chỉ số trực quan của các MLLM hiện tại.
Cải thiện hiệu suất MLLM với bộ dữ liệu học tập đa phương thức quy mô lớn Chart$\text{M}^3$-Train.
Nhấn mạnh tầm quan trọng của việc học có giám sát đa phương thức trong việc phát triển hệ thống chỉnh sửa biểu đồ.
Limitations:
Số lượng mẫu (1.000) trong chuẩn Chart$\text{M}^3$ có thể tương đối nhỏ.
Cần nghiên cứu thêm về hiệu suất tổng quát trên nhiều loại biểu đồ và tác vụ chỉnh sửa khác nhau.
Cần phải nghiên cứu thêm để khắc phục những hạn chế của MLLM hiện tại (ví dụ: phát triển các mô hình hiểu biết trực quan phức tạp hơn).
👍