[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

IOPO: Trao quyền cho LLM với Hướng dẫn phức tạp theo sau thông qua Tối ưu hóa tùy chọn đầu vào-đầu ra

Created by
  • Haebom

Tác giả

Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li

Phác thảo

Trong bài báo này, chúng tôi đề xuất một chuẩn mực TRACE để cải thiện khả năng theo dõi lệnh phức tạp của các mô hình ngôn ngữ quy mô lớn (LLM), và một phương pháp căn chỉnh IOPO xem xét cả lệnh và sở thích phản hồi. TRACE bao gồm 120.000 dữ liệu huấn luyện và 1.000 dữ liệu đánh giá, và IOPO sử dụng các cặp sở thích đầu vào và đầu ra để cho phép LLM nhanh chóng thích ứng với sở thích phản hồi, đồng thời khám phá chi tiết các sở thích lệnh. Kết quả thực nghiệm cho thấy IOPO cải thiện hiệu suất lần lượt là 8,15% và 2,18% trên dữ liệu trong miền, và lần lượt là 6,29% và 3,13% trên dữ liệu ngoài miền, so với các phương pháp SFT và DPO hiện có.

Takeaways, Limitations

Takeaways:
TRACE, một chuẩn mực mới để đánh giá và cải thiện khả năng làm theo các hướng dẫn phức tạp
Đề Xuất một phương pháp sắp xếp hiệu quả IOPO xem xét cả sở thích đầu vào và đầu ra
Kiểm chứng thực nghiệm hiệu suất vượt trội của IOPO (xác nhận cải thiện hiệu suất trên dữ liệu trong và ngoài miền)
Limitations:
TRACE vẫn có thể bị giới hạn về quy mô (120K dữ liệu đào tạo, 1K dữ liệu đánh giá)
Cần nghiên cứu thêm về hiệu suất tổng quát của IOPO
Có thể thiếu đánh giá toàn diện về các loại hướng dẫn phức tạp khác nhau
👍