Bài báo này khám phá cách các mô hình ngôn ngữ quy mô lớn (LLM) có thể tiếp thu các khả năng ngôn ngữ mới và thích ứng với các miền mới thông qua quá trình tiền huấn luyện liên tục (CPT). Cụ thể, chúng tôi phân tích một cách có hệ thống tác động của việc lựa chọn tối ưu các siêu tham số chính, chẳng hạn như tỷ lệ pha trộn của các ngôn ngữ bổ sung hoặc ngữ liệu miền, lên hiệu suất của mô hình. Chúng tôi thực hiện CPT để cải thiện trình độ tiếng Trung bằng cách sử dụng các mô hình Llama-3 8B và 70B, đồng thời nghiên cứu mối tương quan tối ưu giữa tỷ lệ pha trộn ngôn ngữ bổ sung (ALMR) và tốc độ học (LR) trong mô hình 8B để đưa ra các thiết lập thử nghiệm tối ưu. Thông qua việc lựa chọn và tinh chỉnh cẩn thận các siêu tham số, chúng tôi cải thiện hiệu suất của mô hình không chỉ trên các điểm chuẩn liên quan đến tiếng Trung mà còn trong các lĩnh vực cụ thể như toán học, mã hóa và trí tuệ cảm xúc. Chúng tôi triển khai mô hình 70B cuối cùng trong một hệ thống trò chuyện thực tế, đạt được hiệu suất thỏa đáng.