Este artículo investiga si los modelos de visión artificial preentrenados pueden predecir con precisión los niveles de miedo en imágenes relacionadas con arañas, lo que proporciona un estudio fundamental para el desarrollo de un sistema adaptativo de terapia de exposición por computadora. Mediante aprendizaje por transferencia, se aplicaron tres modelos diferentes para predecir las calificaciones de miedo humano (en una escala de 0 a 100) a partir de un conjunto de datos estandarizado de 313 imágenes. Los resultados de la validación cruzada mostraron un error absoluto medio (EMA) de 10,1 a 11,0. El análisis de la curva de aprendizaje reveló que la reducción del tamaño del conjunto de datos resultó en una disminución del rendimiento, pero un mayor tamaño del conjunto de datos no mejoró significativamente el rendimiento. La evaluación de la explicabilidad demostró que las predicciones del modelo se basaron en características relacionadas con las arañas, y el análisis de errores por categoría identificó condiciones visuales asociadas con altas tasas de error, como vistas lejanas y arañas artificiales/pintadas. Este estudio demuestra el potencial de los modelos de visión artificial explicables para la predicción de la calificación de miedo y destaca la importancia de la explicabilidad del modelo y un tamaño suficiente del conjunto de datos para el desarrollo de una terapia eficaz de reconocimiento de emociones.