Để Giải quyết những thách thức trong việc xây dựng các tập dữ liệu chất lượng cao cho các tác vụ chuyên biệt, bài báo này đề xuất CRAFT (Truy xuất và Tăng cường Ngữ liệu để Tinh chỉnh), một phương pháp tạo ra các tập dữ liệu tổng hợp dựa trên một số lượng nhỏ các ảnh chụp do người dùng tạo ra. CRAFT sử dụng một tập dữ liệu thu thập dữ liệu web công khai quy mô lớn và truy xuất tài liệu dựa trên độ tương đồng để tìm các tài liệu có liên quan, đồng thời tận dụng mô hình ngôn ngữ khổng lồ (LLM) được điều chỉnh theo chỉ thị để tăng cường các tài liệu đã truy xuất bằng các mẫu tác vụ do người dùng xác định. Các thử nghiệm trên bốn tác vụ đa dạng—sinh học, y học, trả lời câu hỏi thông thường (QA) và tóm tắt—chứng minh rằng CRAFT tạo ra hiệu quả các tập dữ liệu đào tạo lớn, dành riêng cho tác vụ, vượt trội hoặc ngang bằng với LLM tiêu chuẩn về tác vụ QA và đạt được cải thiện ưu tiên 46 điểm so với các mô hình được đào tạo trên dữ liệu do con người quản lý hiện có về tác vụ tóm tắt. Hơn nữa, phương pháp này vượt trội hơn các phương pháp tạo tập dữ liệu tổng hợp khác, chẳng hạn như Tự hướng dẫn và Evol-Hướng dẫn, và duy trì hiệu suất mạnh mẽ ngay cả khi chất lượng của một vài ảnh chụp ban đầu thay đổi.