Bài báo này đề xuất CoT-Self-Instruct, một phương pháp tạo dữ liệu tổng hợp chất lượng cao cho các mô hình ngôn ngữ quy mô lớn (LLM). Dựa trên một tác vụ hạt giống, CoT-Self-Instruct đầu tiên suy luận và lập kế hoạch LLM thông qua Chain-of-Thought (CoT), sau đó tạo ra dữ liệu tổng hợp mới có chất lượng và độ phức tạp tương tự. Tiếp theo là bước lọc để chọn dữ liệu chất lượng cao bằng các số liệu đánh giá tự động và dữ liệu được chọn sẽ được sử dụng để huấn luyện LLM. Kết quả thử nghiệm cho thấy CoT-Self-Instruct vượt trội hơn các tập dữ liệu huấn luyện hiện có (s1k, OpenMathReasoning) về các tác vụ suy luận có thể xác minh (MATH500, AMC23, AIME24, GPQA-Diamond) và dữ liệu do con người tạo ra cũng như dữ liệu huấn luyện tự hướng dẫn tiêu chuẩn về các tác vụ tuân theo hướng dẫn không thể xác minh (AlpacaEval 2.0, Arena-Hard).