TruthLens es un novedoso marco de detección de DeepFake que supera las limitaciones de la clasificación binaria tradicional (real vs. falsa) para determinar si una imagen es real o falsa y proporciona un razonamiento textual detallado para dicha predicción. Su diseño híbrido combina la comprensión contextual global de modelos de lenguaje multimodales a gran escala, como PaliGemma2, con la extracción de características locales de modelos basados únicamente en la visión, como DINOv2, para gestionar eficazmente tanto DeepFakes de manipulación facial como contenido generado por IA. Incluso puede responder preguntas sobre detalles sutiles como ojos, nariz y boca, y ha demostrado una precisión de detección y una explicabilidad entre un 2 % y un 14 % superiores a las de los métodos de vanguardia existentes en diversos conjuntos de datos. Se generaliza fácilmente a técnicas de manipulación existentes y novedosas.