S'appuyant sur plusieurs études récentes suggérant que les modèles de langage à grande échelle (MLL) peuvent être utilisés pour faire face au déluge de données de cybersécurité et améliorer l'automatisation des tâches de cyber-renseignement (CTI), cet article présente une méthodologie d'évaluation permettant de tester les LLM sur des tâches de CTI, ainsi que de quantifier leur cohérence et leur niveau de confiance, en utilisant l'apprentissage à zéro coup, l'apprentissage à quelques coups et le réglage fin. À l'aide de trois LLM de pointe et d'un ensemble de données de 350 rapports de renseignement sur les menaces, nous menons des expériences et fournissons de nouvelles preuves des risques de sécurité potentiels liés à l'utilisation des LLM pour la CTI. Nous démontrons qu'ils ne sont pas suffisamment performants sur des rapports réels, sont incohérents et ont tendance à être trop confiants. L'apprentissage à quelques coups et le réglage fin n'améliorent que partiellement les résultats, ce qui remet en question la faisabilité de l'utilisation des LLM dans des scénarios de CTI où les ensembles de données étiquetés sont rares et la confiance est un facteur critique.