Dựa trên một số nghiên cứu gần đây cho thấy rằng các mô hình ngôn ngữ quy mô lớn (LLM) có thể được sử dụng để giải quyết tình trạng tràn ngập dữ liệu an ninh mạng nhằm cải thiện khả năng tự động hóa các tác vụ tình báo mối đe dọa mạng (CTI), bài báo này trình bày một phương pháp đánh giá có thể kiểm tra LLM trên các tác vụ CTI, cũng như định lượng tính nhất quán và mức độ tin cậy của chúng khi sử dụng học không lần, học ít lần và tinh chỉnh. Sử dụng ba LLM hiện đại và bộ dữ liệu gồm 350 báo cáo tình báo mối đe dọa, chúng tôi tiến hành các thí nghiệm và cung cấp bằng chứng mới về các rủi ro bảo mật tiềm ẩn khi sử dụng LLM cho CTI. Chúng tôi chỉ ra rằng chúng không hoạt động đủ tốt trên các báo cáo thực tế, không nhất quán và có xu hướng quá tự tin. Học ít lần và tinh chỉnh chỉ cải thiện một phần kết quả, đặt ra câu hỏi về tính khả thi của việc sử dụng LLM trong các tình huống CTI khi các bộ dữ liệu được gắn nhãn khan hiếm và độ tin cậy là một yếu tố quan trọng.