Bài báo này đề xuất một khuôn khổ nén dữ liệu và mô hình (DaMoC) giải quyết vấn đề lựa chọn nhanh chóng mô hình tối ưu trong số nhiều mô hình ngôn ngữ quy mô lớn (LLM) nguồn mở để tinh chỉnh cho các tác vụ miền cụ thể. DaMoC bao gồm hai khía cạnh: cấp độ dữ liệu và mô hình. Ở cấp độ dữ liệu, chúng tôi phân loại các phương pháp lọc dữ liệu thành ba mô hình: nhận thức phân phối, nhận thức chất lượng và phương pháp kết hợp. Chúng tôi đạt được nén mã thông báo bằng cách tăng mật độ mã thông báo chính và chúng tôi tối ưu hóa biểu diễn bằng cách viết lại văn bản theo từng bước lặp lại bằng LLM. Ở cấp độ mô hình, chúng tôi sử dụng điểm tương đồng phân cấp để đánh giá tầm quan trọng của từng lớp, cắt tỉa các lớp có tầm quan trọng thấp và giới thiệu mô hình hợp nhất thưa thớt để tối đa hóa việc bảo tồn các tính năng của mô hình gốc. Thông qua các thử nghiệm mở rộng trên bốn tập dữ liệu—Hỏi & Đáp về y tế, Hỏi & Đáp về tài chính, Hỏi & Đáp chung và hiểu đọc—chúng tôi chứng minh rằng việc lựa chọn LLM tối ưu giúp giảm thời gian đào tạo khoảng 20 lần.