Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CoT-Tự hướng dẫn: Xây dựng các gợi ý tổng hợp chất lượng cao cho các nhiệm vụ lý luận và không lý luận

Created by
  • Haebom

Tác giả

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, Sainbayar Sukhbaatar, Jason Weston, Jing Xu

Phác thảo

Bài báo này đề xuất CoT-Self-Instruct, một phương pháp tạo dữ liệu tổng hợp chất lượng cao cho các mô hình ngôn ngữ quy mô lớn (LLM). Dựa trên một tác vụ hạt giống, CoT-Self-Instruct đầu tiên suy luận và lập kế hoạch LLM thông qua Chain-of-Thought (CoT), sau đó tạo ra dữ liệu tổng hợp mới có chất lượng và độ phức tạp tương tự. Tiếp theo là bước lọc để chọn dữ liệu chất lượng cao bằng các số liệu đánh giá tự động và dữ liệu được chọn sẽ được sử dụng để huấn luyện LLM. Kết quả thử nghiệm cho thấy CoT-Self-Instruct vượt trội hơn các tập dữ liệu huấn luyện hiện có (s1k, OpenMathReasoning) về các tác vụ suy luận có thể xác minh (MATH500, AMC23, AIME24, GPQA-Diamond) và dữ liệu do con người tạo ra cũng như dữ liệu huấn luyện tự hướng dẫn tiêu chuẩn về các tác vụ tuân theo hướng dẫn không thể xác minh (AlpacaEval 2.0, Arena-Hard).

Takeaways, Limitations

Takeaways:
CoT-Self-Instruct có thể góp phần cải thiện hiệu suất của LLM bằng cách tạo ra dữ liệu tổng hợp có chất lượng cao hơn so với các tập dữ liệu hiện có.
Nó cho thấy hiệu suất tuyệt vời trong cả suy luận có thể xác minh và hướng dẫn không thể xác minh theo nhiệm vụ.
Chúng tôi trình bày một phương pháp lựa chọn dữ liệu chất lượng cao một cách hiệu quả bằng cách sử dụng các số liệu đánh giá tự động.
Limitations:
Cần phải xác nhận thêm về hiệu suất tổng quát và độ tin cậy của phép đo đánh giá tự động được đề xuất.
Thiếu sự phân tích về độ lệch và tính an toàn của dữ liệu tổng hợp được tạo ra.
Vì hiệu suất chỉ được đánh giá cho một loại nhiệm vụ cụ thể nên cần phải xem xét hiệu suất tổng quát cho các loại nhiệm vụ khác.
👍