Basándonos en varios estudios recientes que sugieren que los modelos de lenguaje a gran escala (LLM) pueden utilizarse para abordar la avalancha de datos de ciberseguridad y mejorar la automatización de las tareas de inteligencia sobre ciberamenazas (CTI), este documento presenta una metodología de evaluación que puede probar los LLM en tareas de CTI, así como cuantificar su consistencia y niveles de confianza, al utilizar el aprendizaje de cero disparos, el aprendizaje de pocos disparos y el ajuste fino. Utilizando tres LLM de última generación y un conjunto de datos de 350 informes de inteligencia de amenazas, realizamos experimentos y proporcionamos nueva evidencia sobre los posibles riesgos de seguridad del uso de LLM para CTI. Demostramos que no funcionan lo suficientemente bien en informes del mundo real, son inconsistentes y tienden a ser demasiado confiados. El aprendizaje de pocos disparos y el ajuste fino solo mejoran parcialmente los resultados, lo que cuestiona la viabilidad del uso de LLM en escenarios de CTI donde los conjuntos de datos etiquetados son escasos y la confianza es un factor crítico.