Bài báo này đề xuất một khuôn khổ tạo dữ liệu ngữ cảnh văn bản dài tổng hợp nhằm nâng cao khả năng xử lý và suy luận đầu vào văn bản dài của các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết tình trạng thiếu hụt các tập dữ liệu ngữ cảnh văn bản dài chất lượng cao, đa dạng và có thể kiểm chứng, chúng tôi trình bày một khuôn khổ mô-đun và có thể mở rộng để tạo dữ liệu thông qua các tương tác LLM dựa trên lời nhắc. Khuôn khổ này hỗ trợ nhiều mục tiêu học tập và căn chỉnh khác nhau (SFT, DPO và GRPO) và kết hợp bốn mô hình tạo dữ liệu: hội thoại nhiều vòng, cặp đầu vào-đầu ra dựa trên tài liệu, tác vụ lệnh-phản hồi có thể kiểm chứng và các ví dụ suy luận văn bản dài. Lời nhắc dựa trên mẫu, kiến trúc độc lập với mô hình và đầu ra giàu siêu dữ liệu tạo điều kiện thuận lợi cho việc tạo ra các tập dữ liệu có khả năng mở rộng, kiểm soát và phù hợp với mục đích cụ thể.