Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MLLM-CBench: Một chuẩn mực toàn diện cho việc điều chỉnh hướng dẫn liên tục của LLM đa phương thức với phân tích suy luận chuỗi suy nghĩ

Created by
  • Haebom

Tác giả

Haiyun Guo, Zhiyan Hou, Yu Chen, Jinghan He, Yandu Sun, Yuzhe Zhou, Shujing Guo, Kuan Zhu, Jinqiao Wang

Phác thảo

Bài báo này trình bày MLLM-CTBench, một chuẩn mực để điều chỉnh hướng dẫn liên tục của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). MLLM-CTBench bao gồm bảy nhiệm vụ được lựa chọn cẩn thận từ sáu miền khác nhau. Nó cung cấp một thước đo đánh giá đa chiều (kết hợp độ chính xác của câu trả lời cuối cùng và chất lượng suy luận Chuỗi suy nghĩ (CoT)), một đánh giá toàn diện về các thuật toán học liên tục (tám thuật toán trên bốn danh mục chính) và so sánh hiệu quả của tinh chỉnh tăng cường (RFT) và tinh chỉnh có giám sát (SFT) (dựa trên việc duy trì hiệu suất mô hình trên các nhiệm vụ liên tiếp). Kết quả thử nghiệm chứng minh rằng quá trình suy luận MLLM mạnh mẽ hơn đối với việc quên trong quá trình đào tạo liên tục so với đầu ra cuối cùng và một mô hình cơ sở mạnh mẽ thể hiện khả năng chống quên mạnh hơn. RFT được chính quy hóa đúng cách được chứng minh là một phương pháp mạnh mẽ hơn đối với việc duy trì hiệu suất trên các nhiệm vụ so với SFT, làm nổi bật tầm quan trọng của chính quy hóa phân kỳ KL.

Takeaways, Limitations

Takeaways:
Cung cấp MLLM-CTBench, một chuẩn mực có hệ thống để điều chỉnh hướng dẫn liên tục của MLLM.
Các số liệu đánh giá đa chiều cho phép phân tích chi tiết khả năng học tập liên tục của MLLM.
ĐáNh giá toàn diện về nhiều thuật toán học liên tục khác nhau và cung cấp thông tin chi tiết hữu ích cho việc thiết kế và áp dụng thuật toán.
So sánh RFT và SFT cho thấy RFT, đặc biệt là RFT với quy tắc phân kỳ KL, hiệu quả hơn trong học liên tục.
Thực nghiệm đã chứng minh rằng quá trình suy luận của MLLM mạnh mẽ hơn khi bị lãng quên so với kết quả cuối cùng.
Limitations:
Phạm vi của nhiệm vụ MLLM-CTBench có thể bị hạn chế.
Khả năng chủ quan trong việc lựa chọn chỉ số đánh giá và thuật toán.
Cần nghiên cứu thêm để xác định khả năng khái quát hóa của môi trường và bối cảnh thử nghiệm.
👍