TruthLens es un marco de detección de deepfakes integral y generalizable que va más allá de la clasificación binaria tradicional (real vs. falso) para proporcionar una inferencia textual detallada. Utiliza una estrategia de integración de representación basada en tareas que combina el contexto semántico global de un modelo de lenguaje multimodal a gran escala (MLLM) con las características locales de un modelo visual. Esto permite una inferencia detallada y basada en regiones para la manipulación facial y contenido totalmente sintético, respondiendo a preguntas granulares como "¿Parecen reales los ojos, la nariz y la boca?". Los resultados experimentales con diversos conjuntos de datos demuestran que TruthLens establece un nuevo estándar tanto en interpretabilidad forense como en precisión de detección, y se generaliza eficazmente en manipulaciones conocidas y desconocidas.