TruthLens est un framework complet et généralisable de détection de deepfakes. Il va au-delà de la classification binaire traditionnelle (réel ou faux) pour fournir une inférence textuelle détaillée. Il utilise une stratégie d'intégration de représentations pilotée par tâches qui combine le contexte sémantique global d'un modèle linguistique multimodal à grande échelle (MLLM) avec les caractéristiques locales d'un modèle visuel. Cela permet une inférence fine et régionale pour la manipulation faciale et le contenu entièrement synthétique, répondant à des questions précises telles que « Les yeux, le nez et la bouche semblent-ils réels ? » Les résultats expérimentaux sur divers ensembles de données démontrent que TruthLens établit une nouvelle norme en matière d'interprétabilité forensique et de précision de détection, et qu'il se généralise efficacement aux manipulations connues et inconnues.